در هفته جاری، شاهد انتشار مدلهای کوچک هوش مصنوعی هستیم. در روز پنجشنبه، موسسه غیرانتفاعی تحقیقاتی Ai2 از مدل Olmo 2 1B رونمایی کرد؛ مدلی با یک میلیارد پارامتر که ادعا میشود در مقایسه با مدلهای مشابه از گوگل، متا و علیبابا، در چندین آزمون عملکرد بهتری دارد. پارامترها که گاهی به عنوان وزنها شناخته میشوند، اجزای داخلی مدل هستند که رفتار آن را هدایت میکنند.
مدل Olmo 2 1B تحت مجوز Apache 2.0 در پلتفرم توسعه هوش مصنوعی Hugging Face در دسترس است. بر خلاف بسیاری از مدلها، Olmo 2 1B قابلیت تکثیر از صفر را دارد؛ زیرا Ai2 کد و مجموعه دادههای مورد استفاده برای توسعه آن را (Olmo-mix-1124 و Dolmino-mix-1124) در اختیار عموم قرار داده است. هرچند این مدلها به اندازهی همتایان بزرگتر خود قوی نیستند، اما از آنجا که نیازی به سختافزار قدرتمند برای اجرا ندارند، دسترسی آنها برای توسعهدهندگان و علاقهمندان استفاده از ماشینهای کمقدرت و مصرفی بسیار آسان شده است.
در روزهای اخیر، چندین مدل کوچک دیگر از جمله خانواده مدلهای Phi 4 مایکروسافت و مدل Qwen 2.5 Omni 3B معرفی شدهاند. اکثر این مدلها، از جمله Olmo 2 1B، به راحتی بر روی لپتاپهای مدرن و حتی دستگاههای موبایل قابل اجرا هستند.
Ai2 اعلام کرده است که Olmo 2 1B با استفاده از یک مجموعه داده چهار تریلیونی توکن که شامل منابع عمومی، تولیدشده با هوش مصنوعی و محتوای دستی است، آموزش دیده است. توکنها، اجزای خام دادهای هستند که مدلها پردازش و تولید میکنند؛ بهطور مثال، یک میلیون توکن معادل با حدود 750,000 کلمه است.
بر اساس ارزیابی در آزمون منطقی GSM8K، Olmo 2 1B عملکرد بهتری نسبت به مدلهای Gemma 3 1B گوگل، Llama 3.2 1B متا و Qwen 2.5 1.5B علیبابا نشان داده است. همچنین، این مدل در آزمون TruthfulQA که دقیق بودن اطلاعات را ارزیابی میکند، عملکرد بهتری را نسبت به این سه مدل از خود نشان میدهد.
با این حال، Ai2 هشدار میدهد که مدل Olmo 2 1B ممکن است خطراتی نیز به همراه داشته باشد. مانند تمامی مدلهای هوش مصنوعی، این مدل قادر است خروجیهای “مسئلهدار” شامل محتوای مضری و “حساس” تولید کند و همچنین ممکن است اظهارات نادرستی به بار آورد. به همین دلیل، Ai2 توصیه میکند که از بهرهبرداری از Olmo 2 1B در محیطهای تجاری خودداری شود.