شرکت جدید تحقیقات هوش مصنوعی “دیپ کوگیتو” (Deep Cogito) که در سانفرانسیسکو مستقر است، امروز با معرفی مدلهای زبانی بزرگ جدید خود تحت عنوان “کوگیتو ۱” (Cogitov1) رسماً از حالت مخفی خارج شد. این مدلها بهصورت متنباز توسعه یافته و از مدل “لاما ۳.۲” (Llama 3.2) شرکت متا بهصورت ویژه تنظیم شدهاند و قابلیتهای استدلال ترکیبی را به همراه دارند. این قابلیتها امکان پاسخگویی سریع و آنی و همچنین خودبازتابی مشابه مدلهای سری “O” اوپنایآی و “دیپسیک” را فراهم میآورند. هدف این شرکت فراتر رفتن از محدودیتهای نظارت انسانی و توانمندسازی مدلها برای بهبود مستمر و داخلی کردن استراتژیهای استدلال پیشرفتهتر خود است. در نهایت، دیپ کوگیتو در تلاش است تا به توسعه هوش فوقالعاده — هوش مصنوعیای که در همه حوزهها از انسانها پیشی گیرد — دست یابد. با این حال، این شرکت اصرار دارد که “تمام مدلهایی که ما تولید خواهیم کرد، متنباز خواهند بود.”
مدیرعامل و یکی از بنیانگذاران دیپ کوگیتو، دکتر ایشان آرورا، که پیش از این مهندس نرمافزار ارشد در گوگل بوده و رهبری مدلسازی مدلهای زبانی بزرگ برای محصول جستجوی تولیدی گوگل را بر عهده داشته، در پستی در شبکه اجتماعی X اعلام کرد که این مدلها “قدرتمندترین مدلهای بازدر سطح خود هستند” که شامل مدلهای “لاما”، “دیپسیک” و “کون” میشود. مدلهای اولیه با اندازههای متنوع شامل ۳ میلیارد، ۸ میلیارد، ۱۴ میلیارد، ۳۲ میلیارد و ۷۰ میلیارد پارامتر به صورت عمومی در جامعه اشتراکگذاری کد AI شامل “هاگینگ فیس”، “اولاما” و از طریق رابطهای برنامهنویسی کاربردی (API) در “فایروورکز” و “توگذر AI” در دسترس هستند. این مدلها تحت شرایط مجوز “لاما” ارائه میشوند که استفاده تجاری را مجاز میسازد و به شرکتهای ثالث این امکان را میدهد تا از آنها در محصولات پولی خود بهرهبرداری کنند. این شرکت همچنین برنامه دارد مدلهای بزرگتری با حداکثر ۶۷۱ میلیارد پارامتر را در ماههای آتی منتشر کند.
آرورا به رویکرد آموزشی این شرکت اشاره کرد که به نام تقطیر و تقویت متناوب (IDA) شناخته میشود و به عنوان یک جایگزین نوآورانه برای یادگیری تقویتی سنتی از بازخورد انسان (RLHF) یا تقطیر مدل معلم ارائه شده است. ایده اصلی IDA تخصیص محاسبات بیشتر به یک مدل برای تولید راهحلهای بهبود یافته است و سپس تقطیر این فرایند استدلال به پارامترهای مدل، که بهطور مؤثری یک حلقه بازخورد برای رشد قابلیتها ایجاد میکند. آرورا این رویکرد را به استراتژی خودبازی “گوگل آلفاگو” در زبان طبیعی تشبیه میکند.
دیپ کوگیتو نتایج ارزیابی گستردهای از مقایسه مدلهای خود با رقبای متنباز در زمینههای دانش عمومی، استدلال ریاضی و وظایف چندزبانه ارائه داده است. یافتهها نشان میدهد مدلهای کوگیتو معمولاً در حالت استدلال بهترین عملکرد را دارند، اگرچه تعدادی معایب در زمینه ریاضیات ظاهر میشود. به عنوان مثال، در حالی که مدل “کوگیتو ۷۰B (استاندارد)” عملکرد مشابهی با رقبای خود در تستهای ریاضی دارد، مدل “کوگیتو ۷۰B (استدلال)” به ۵ درصد کمتر از “دیپسیک R1” در تست MATH دست یافته است.
دیپ کوگیتو همچنین عملکرد مدلهای خود را در زمینه فراخوانی ابزارهای بومی ارزیابی کرده است. این بهروزرسانیها نه تنها به معماری مدل و دادههای آموزشی مربوط میشود، بلکه به پسآموزش خاص وظایف نیز مرتبط است. این شرکت برنامه دارد که مدلهای مقیاس بزرگتری را در ماههای آینده ارائه دهد، از جمله انواع ترکیبکارشناسان با مقیاس پارامترهای ۱۰۹B، ۴۰۰B و ۶۷۱B.
دیپ کوگیتو روش IDA خود را به عنوان یک مسیر درازمدت به سوی بهبود خودکار و مقیاسپذیر معرفی کرده و بر اهمیت عملکرد واقعی و سازگاری مدلها تأکید میکند. آرورا خاطرنشان میکند که در حالی که معیارهای عملکرد مهم هستند، کاربرد واقعی و سازگاری معیارهای واقعی این مدلها محسوب میشود و این شرکت تنها در آغاز یک منحنی مقیاسگذاری شدید قرار دارد.
شریکان تحقیق و زیرساخت دیپ کوگیتو شامل تیمهایی از هاگینگ فیس، رانپاد، فایروورکز AI، توگذر AI و اولاما میباشند. تمامی مدلهای منتشر شده به صورت متنباز در دسترس قرار دارد.