انتشار ۴ مدل جدید reasoning ترکیبی متن‌باز با «شعور» خودبهبوددهنده از Deep Cogito

دیپ کوجیتو، یک استارتاپ تحقیقاتی هوش مصنوعی مستقر در سان فرانسیسکو و تأسیس‌شده توسط پیشینان گوگل، از چهار مدل زبان بزرگ جدید رونمایی کرده است که با هدف یادگیری مؤثرتر در فرآیند استدلال، به شکل خودکار بهبود می‌یابند. این مدل‌ها که به خانواده v2 کوجیتو تعلق دارند، دارای پارامترهایی بین 70 میلیارد تا 671 میلیارد هستند و در اختیار توسعه‌دهندگان هوش مصنوعی و شرکت‌ها قرار می‌گیرند؛ با شرایط مجوزی محدود و یا کاملاً باز.

مدل‌های Dense و MoE هرکدام برای نیازهای خاصی طراحی شده‌اند. مدل‌های Dense با پارامترهای 70B و 405B هنگام هر پاس رو به جلو، همه پارامترها را فعال می‌کنند که این امر پیش‌بینی‌پذیری و سهولت در استقرار را در سخت‌افزارهای مختلف به ارمغان می‌آورد. این مدل‌ها برای برنامه‌های با تأخیر کم، تنظیم دقیق و محیط‌هایی با ظرفیت محدود GPU ایده‌آل هستند. از طرفی دیگر، مدل‌های MoE مانند نسخه‌های 109B و 671B از مکانیسم مسیریابی Sparse استفاده می‌کنند و تنها تعداد معدودی از زیرشبکه‌های “کارشناس” را در هر بار فعال می‌کنند، که این باعث می‌شود امکان ساخت مدل‌های بزرگ‌تر با هزینه محاسباتی کمتری فراهم شود.

مدل 671B MoE به عنوان پرچمدار خانواده kوجیتو v2، با بهره‌گیری از مقیاس و کارایی مسیریابی، قادر است به‌طور هم‌زمان با مدل‌های مشابه در معیارها هماهنگ یا حتی برتر عمل کند؛ و این در حالی است که زنجیره‌های استدلال کوتاه‌تری را استفاده می‌کند. این مدل‌ها هم‌اکنون برای دانلود در Hugging Face و به شکل محلی در Unsloth در دسترس هستند و همچنین به وسیله API‌های ارائه شده توسط شرکت‌های Together AI، Baseten و RunPod قابل استفاده‌اند.

ویژگی منحصر به فرد این مدل‌ها به همگرا بودن فرآیندهای استدلال آنها مربوط می‌شود. این مدل‌ها به گونه‌ای طراحی شده‌اند که می‌توانند به یک پرسش پاسخ فوری دهند یا در صورت نیاز، به مدت زمان کوتاهی به تفکر درونی بپردازند. این فرآیند تفکر به حین آموزش مدل‌ها نیز گنجانده شده است به طوری که مسیرهای استدلال خود را به‌خوبی درک کرده و هر کدام از آن‌ها را به وزن‌های مدل بازمی‌گردانند. این بدان معناست که با گذشت زمان، الگوریتم‌ها یاد می‌گیرند که کدام مسیرهای تفکر واقعاً اهمیت دارند و کدام نه.

به قول دیپ کوجیتو، این رویکرد باعث افزایش کارایی و بهبود عملکرد استدلال می‌شود. در حالیکه بسیاری از افراد در جامعه هوش مصنوعی به تازگی با این شرکت آشنا شده‌اند، دیپ کوجیتو در سکوتی نسبی بیش از یک سال به تحقیق و توسعه مدل‌های خود پرداخته، و در آوریل 2025 بعد از جذب 13 میلیون دلار سرمایه، اولین مدل‌های منبع باز خود را معرفی کرد.

مدل 671B MoE به طور اختصاصی، عملکرد بهتری نسبت به مدل‌های دیگر در وظایف استدلال از خود نشان می‌دهد، به گونه‌ای که این مدل زنجیره‌های استدلال 60٪ کوتاه‌تری را نسبت به مدل‌های مشابه تولید می‌کند. برای مثال، در پاسخ به یک سؤال ریاضی، این مدل به سادگی می‌تواند به نتیجه برسد که آیا یک قطار می‌تواند به مدت زمان مشخصی به شهری برسد یا خیر، و این کار را با یک زنجیره تفکر کوتاه‌تر انجام می‌دهد.

مدل‌های cوجیتو به صورت منبع باز در اختیار کاربران قرار می‌گیرند و این شرکت تأکید دارد که این رویه را در آینده ادامه خواهد داد. به این ترتیب، توسعه‌دهندگان و محققان می‌توانند از این مدل‌ها بهره برده و مقایسه‌هایی میان مدل‌ها انجام دهند. دیپ کوجیتو در تلاش است تا نه تنها یک الگوی جدید برای ساخت هوش مصنوعی ارائه دهد، بلکه به دنبال یادگیری بهتر نحوه تفکر هوشمندانه‌تر است.

تبدیل گفتار به نوشتار فارسی

انتشار ۴ مدل جدید reasoning ترکیبی متن‌باز با «شعور» خودبهبوددهنده از Deep Cogito

دیدگاه‌ خود را بنویسید لغو پاسخ