رونمایی از دیپ کوجیتو با مدل‌های ترکیبی هوش مصنوعی و استدلال پیشرفته

شرکت Deep Cogito، مرزهای نوآوری در هوش مصنوعی را جابه‌جا می‌کند

شرکت Deep Cogito به تازگی فعالیت خود را آغاز کرده و خانواده‌ای از مدل‌های هوش مصنوعی پیشرفته را معرفی کرده است که قابلیت جابه‌جایی بین «حالت استدلالی» و «حالت غیر استدلالی» را دارند. این مدل‌ها، تحت عنوان Cogito 1، به عنوان نوعی ساختار ترکیبی طراحی شده‌اند که امکان پاسخگویی سریع به سوالات ساده و همچنین تمرکز بیشتر بر سوالات پیچیده‌تر را فراهم می‌کنند.

مزیت مدل‌های استدلالی در هوش مصنوعی

مدل‌های استدلالی مانند o1 ساخت شرکت OpenAI، توانایی قابل توجهی در حوزه‌هایی مانند ریاضیات و فیزیک از خود نشان داده‌اند. این مدل‌ها با قابلیت بررسی و حل مسائل پیچیده به صورت مرحله به مرحله، عملکرد قابل اعتماد و دقیقی ارائه می‌دهند. با این حال، این روش‌ها نیازمند منابع پردازشی بیشتر و زمان بالاتری هستند. به همین دلیل، رویکردی ترکیبی از سوی آزمایشگاه‌های پیشرو مانند Anthropic توسعه داده شده است که اجزا استدلالی را با عناصر استاندارد و معمولی ترکیب می‌کند.

معرفی مدل‌های Cogito 1

تمامی مدل‌های معرفی شده توسط Deep Cogito تحت عنوان Cogito 1، مدل‌های ترکیبی هستند. این شرکت در وبلاگ رسمی خود اعلام کرده است که این مدل‌ها از نظر عملکرد، بهترین مدل‌های هوش مصنوعی موجود در این دسته‌بندی را پشت سر گذاشته‌اند؛ از جمله مدل‌هایی ارائه‌شده توسط شرکت Meta و استارتاپ چینی DeepSeek.

مدل‌های Cogito 1 قابلیت پاسخگویی مستقیم به سوالات را دارند یا می‌توانند قبل از ارائه پاسخ، فرآیند استدلالی را انجام دهند. این انعطاف‌پذیری، یکی از مشخصه‌های اصلی این مدل‌هاست. توسعه این مجموعه مدل‌ها توسط تیمی کوچک و طی تنها 75 روز به انجام رسیده است.

ویژگی‌های فنی مدل‌های Cogito 1

مدل‌های Cogito 1 دارای سایزهای متنوعی هستند که از 3 میلیارد پارامتر آغاز شده و تا 70 میلیارد پارامتر ادامه دارند. شرکت Deep Cogito همچنین برنامه‌هایی برای معرفی مدل‌هایی با اندازه‌های بزرگ‌تر، تا سقف 671 میلیارد پارامتر، در هفته‌ها و ماه‌های پیش‌رو دارد. پارامترهای بیشتر، به کیفیت و توانایی مدل در حل مشکلات پیچیده اشاره دارد.

لازم به ذکر است که مدل‌های Cogito 1 از صفر طراحی نشده‌اند؛ بلکه بر پایه مدل‌های Llama ساخت Meta و Qwen از شرکت Alibaba توسعه یافته‌اند. این شرکت با استفاده از تکنیک‌های آموزشی نوآورانه، عملکرد پایه‌ای این مدل‌ها را بهبود بخشیده و قابلیت استدلالی فعال/غیرفعال را به آن‌ها افزوده است.

عملکرد برجسته در آزمون‌های مقایسه‌ای

طبق ارزیابی‌های داخلی Deep Cogito، بزرگ‌ترین مدل این مجموعه یعنی Cogito 70B در حالت استدلالی توانسته مدل R1 شرکت DeepSeek را در چند آزمون ریاضیات و زبان پشت سر بگذارد. همچنین، این مدل در حالت غیرفعال، عملکرد بهتری نسبت به مدل Scout 4 ساخت شرکت Meta در آزمون LiveBench، که یک تست کلی هوش مصنوعی است، داشته است.

دسترسی و چشم‌انداز آینده

مدل‌های Cogito 1 از طریق API‌های ابرمحور شرکت‌های Fireworks AI و Together AI قابل دسترس هستند. Deep Cogito در وبلاگ خود اعلام کرده است که هنوز در مراحل اولیه مقیاس‌بندی قرار دارد و از بخش کوچکی از منابع پردازشی مورد استفاده در آموزش‌های سنتی مدل‌های بزرگ زبان بهره گرفته است. این شرکت در حال پژوهش برای استفاده از روش‌های تکمیلی آموزش پس از توسعه است تا قابلیت خودبهبود را افزایش دهد.

بنیان‌گذاران و هدف جاه‌طلبانه

Deep Cogito در ژوئن 2024 در سان‌فرانسیسکو، ایالت کالیفرنیا تأسیس شده است. بنیان‌گذاران این شرکت، Drishan Arora و Dhruv Malhotra، دارای پیشینه‌ای درخشان در حوزه هوش مصنوعی هستند. Malhotra پیش‌تر مدیر محصول در آزمایشگاه Google DeepMind بود و روی فناوری جستجوی مولد کار می‌کرد، و Arora به عنوان مهندس نرم‌افزار ارشد در Google فعالیت می‌کرد.

با حمایت‌هایی از سوی South Park Commons، این شرکت تمرکز خود را بر ساخت «ابرهوش عمومی» قرار داده است؛ هدفی که معادل توسعه هوش مصنوعی‌ای است که عملکردی بهتر از اکثر انسان‌ها ارائه دهد و قابلیت‌های کاملاً تازه و غیرمنتظره‌ای را کشف کند.

نتیجه‌گیری

نوآوری‌های Deep Cogito و مدل‌های سری Cogito 1 نشان‌دهنده گام بزرگی در مسیر توسعه هوش مصنوعی ترکیبی هستند. توانایی تنظیم بین حالت‌های استدلالی و غیراستدلالی، همراه با عملکرد عالی در آزمون‌ها و دسترسی آسان به این مدل‌ها، می‌تواند به طور بالقوه نحوه استفاده از هوش مصنوعی را متحول کند. آینده‌ای بسیار جذاب برای Deep Cogito و تحولاتی که این شرکت ایجاد خواهد کرد، انتظار می‌رود.

ایجاد تصاویر خلاقانه با هوش مصنوعی