دیپ کوجیتو، یک استارتاپ تحقیقاتی هوش مصنوعی مستقر در سان فرانسیسکو و تأسیسشده توسط پیشینان گوگل، از چهار مدل زبان بزرگ جدید رونمایی کرده است که با هدف یادگیری مؤثرتر در فرآیند استدلال، به شکل خودکار بهبود مییابند. این مدلها که به خانواده v2 کوجیتو تعلق دارند، دارای پارامترهایی بین 70 میلیارد تا 671 میلیارد هستند و در اختیار توسعهدهندگان هوش مصنوعی و شرکتها قرار میگیرند؛ با شرایط مجوزی محدود و یا کاملاً باز.
مدلهای Dense و MoE هرکدام برای نیازهای خاصی طراحی شدهاند. مدلهای Dense با پارامترهای 70B و 405B هنگام هر پاس رو به جلو، همه پارامترها را فعال میکنند که این امر پیشبینیپذیری و سهولت در استقرار را در سختافزارهای مختلف به ارمغان میآورد. این مدلها برای برنامههای با تأخیر کم، تنظیم دقیق و محیطهایی با ظرفیت محدود GPU ایدهآل هستند. از طرفی دیگر، مدلهای MoE مانند نسخههای 109B و 671B از مکانیسم مسیریابی Sparse استفاده میکنند و تنها تعداد معدودی از زیرشبکههای “کارشناس” را در هر بار فعال میکنند، که این باعث میشود امکان ساخت مدلهای بزرگتر با هزینه محاسباتی کمتری فراهم شود.
مدل 671B MoE به عنوان پرچمدار خانواده kوجیتو v2، با بهرهگیری از مقیاس و کارایی مسیریابی، قادر است بهطور همزمان با مدلهای مشابه در معیارها هماهنگ یا حتی برتر عمل کند؛ و این در حالی است که زنجیرههای استدلال کوتاهتری را استفاده میکند. این مدلها هماکنون برای دانلود در Hugging Face و به شکل محلی در Unsloth در دسترس هستند و همچنین به وسیله APIهای ارائه شده توسط شرکتهای Together AI، Baseten و RunPod قابل استفادهاند.
ویژگی منحصر به فرد این مدلها به همگرا بودن فرآیندهای استدلال آنها مربوط میشود. این مدلها به گونهای طراحی شدهاند که میتوانند به یک پرسش پاسخ فوری دهند یا در صورت نیاز، به مدت زمان کوتاهی به تفکر درونی بپردازند. این فرآیند تفکر به حین آموزش مدلها نیز گنجانده شده است به طوری که مسیرهای استدلال خود را بهخوبی درک کرده و هر کدام از آنها را به وزنهای مدل بازمیگردانند. این بدان معناست که با گذشت زمان، الگوریتمها یاد میگیرند که کدام مسیرهای تفکر واقعاً اهمیت دارند و کدام نه.
به قول دیپ کوجیتو، این رویکرد باعث افزایش کارایی و بهبود عملکرد استدلال میشود. در حالیکه بسیاری از افراد در جامعه هوش مصنوعی به تازگی با این شرکت آشنا شدهاند، دیپ کوجیتو در سکوتی نسبی بیش از یک سال به تحقیق و توسعه مدلهای خود پرداخته، و در آوریل 2025 بعد از جذب 13 میلیون دلار سرمایه، اولین مدلهای منبع باز خود را معرفی کرد.
مدل 671B MoE به طور اختصاصی، عملکرد بهتری نسبت به مدلهای دیگر در وظایف استدلال از خود نشان میدهد، به گونهای که این مدل زنجیرههای استدلال 60٪ کوتاهتری را نسبت به مدلهای مشابه تولید میکند. برای مثال، در پاسخ به یک سؤال ریاضی، این مدل به سادگی میتواند به نتیجه برسد که آیا یک قطار میتواند به مدت زمان مشخصی به شهری برسد یا خیر، و این کار را با یک زنجیره تفکر کوتاهتر انجام میدهد.
مدلهای cوجیتو به صورت منبع باز در اختیار کاربران قرار میگیرند و این شرکت تأکید دارد که این رویه را در آینده ادامه خواهد داد. به این ترتیب، توسعهدهندگان و محققان میتوانند از این مدلها بهره برده و مقایسههایی میان مدلها انجام دهند. دیپ کوجیتو در تلاش است تا نه تنها یک الگوی جدید برای ساخت هوش مصنوعی ارائه دهد، بلکه به دنبال یادگیری بهتر نحوه تفکر هوشمندانهتر است.
