شرکت Deep Cogito، مرزهای نوآوری در هوش مصنوعی را جابهجا میکند
شرکت Deep Cogito به تازگی فعالیت خود را آغاز کرده و خانوادهای از مدلهای هوش مصنوعی پیشرفته را معرفی کرده است که قابلیت جابهجایی بین «حالت استدلالی» و «حالت غیر استدلالی» را دارند. این مدلها، تحت عنوان Cogito 1، به عنوان نوعی ساختار ترکیبی طراحی شدهاند که امکان پاسخگویی سریع به سوالات ساده و همچنین تمرکز بیشتر بر سوالات پیچیدهتر را فراهم میکنند.
مزیت مدلهای استدلالی در هوش مصنوعی
مدلهای استدلالی مانند o1 ساخت شرکت OpenAI، توانایی قابل توجهی در حوزههایی مانند ریاضیات و فیزیک از خود نشان دادهاند. این مدلها با قابلیت بررسی و حل مسائل پیچیده به صورت مرحله به مرحله، عملکرد قابل اعتماد و دقیقی ارائه میدهند. با این حال، این روشها نیازمند منابع پردازشی بیشتر و زمان بالاتری هستند. به همین دلیل، رویکردی ترکیبی از سوی آزمایشگاههای پیشرو مانند Anthropic توسعه داده شده است که اجزا استدلالی را با عناصر استاندارد و معمولی ترکیب میکند.
معرفی مدلهای Cogito 1
تمامی مدلهای معرفی شده توسط Deep Cogito تحت عنوان Cogito 1، مدلهای ترکیبی هستند. این شرکت در وبلاگ رسمی خود اعلام کرده است که این مدلها از نظر عملکرد، بهترین مدلهای هوش مصنوعی موجود در این دستهبندی را پشت سر گذاشتهاند؛ از جمله مدلهایی ارائهشده توسط شرکت Meta و استارتاپ چینی DeepSeek.
مدلهای Cogito 1 قابلیت پاسخگویی مستقیم به سوالات را دارند یا میتوانند قبل از ارائه پاسخ، فرآیند استدلالی را انجام دهند. این انعطافپذیری، یکی از مشخصههای اصلی این مدلهاست. توسعه این مجموعه مدلها توسط تیمی کوچک و طی تنها 75 روز به انجام رسیده است.
ویژگیهای فنی مدلهای Cogito 1
مدلهای Cogito 1 دارای سایزهای متنوعی هستند که از 3 میلیارد پارامتر آغاز شده و تا 70 میلیارد پارامتر ادامه دارند. شرکت Deep Cogito همچنین برنامههایی برای معرفی مدلهایی با اندازههای بزرگتر، تا سقف 671 میلیارد پارامتر، در هفتهها و ماههای پیشرو دارد. پارامترهای بیشتر، به کیفیت و توانایی مدل در حل مشکلات پیچیده اشاره دارد.
لازم به ذکر است که مدلهای Cogito 1 از صفر طراحی نشدهاند؛ بلکه بر پایه مدلهای Llama ساخت Meta و Qwen از شرکت Alibaba توسعه یافتهاند. این شرکت با استفاده از تکنیکهای آموزشی نوآورانه، عملکرد پایهای این مدلها را بهبود بخشیده و قابلیت استدلالی فعال/غیرفعال را به آنها افزوده است.
عملکرد برجسته در آزمونهای مقایسهای
طبق ارزیابیهای داخلی Deep Cogito، بزرگترین مدل این مجموعه یعنی Cogito 70B در حالت استدلالی توانسته مدل R1 شرکت DeepSeek را در چند آزمون ریاضیات و زبان پشت سر بگذارد. همچنین، این مدل در حالت غیرفعال، عملکرد بهتری نسبت به مدل Scout 4 ساخت شرکت Meta در آزمون LiveBench، که یک تست کلی هوش مصنوعی است، داشته است.
دسترسی و چشمانداز آینده
مدلهای Cogito 1 از طریق APIهای ابرمحور شرکتهای Fireworks AI و Together AI قابل دسترس هستند. Deep Cogito در وبلاگ خود اعلام کرده است که هنوز در مراحل اولیه مقیاسبندی قرار دارد و از بخش کوچکی از منابع پردازشی مورد استفاده در آموزشهای سنتی مدلهای بزرگ زبان بهره گرفته است. این شرکت در حال پژوهش برای استفاده از روشهای تکمیلی آموزش پس از توسعه است تا قابلیت خودبهبود را افزایش دهد.
بنیانگذاران و هدف جاهطلبانه
Deep Cogito در ژوئن 2024 در سانفرانسیسکو، ایالت کالیفرنیا تأسیس شده است. بنیانگذاران این شرکت، Drishan Arora و Dhruv Malhotra، دارای پیشینهای درخشان در حوزه هوش مصنوعی هستند. Malhotra پیشتر مدیر محصول در آزمایشگاه Google DeepMind بود و روی فناوری جستجوی مولد کار میکرد، و Arora به عنوان مهندس نرمافزار ارشد در Google فعالیت میکرد.
با حمایتهایی از سوی South Park Commons، این شرکت تمرکز خود را بر ساخت «ابرهوش عمومی» قرار داده است؛ هدفی که معادل توسعه هوش مصنوعیای است که عملکردی بهتر از اکثر انسانها ارائه دهد و قابلیتهای کاملاً تازه و غیرمنتظرهای را کشف کند.
نتیجهگیری
نوآوریهای Deep Cogito و مدلهای سری Cogito 1 نشاندهنده گام بزرگی در مسیر توسعه هوش مصنوعی ترکیبی هستند. توانایی تنظیم بین حالتهای استدلالی و غیراستدلالی، همراه با عملکرد عالی در آزمونها و دسترسی آسان به این مدلها، میتواند به طور بالقوه نحوه استفاده از هوش مصنوعی را متحول کند. آیندهای بسیار جذاب برای Deep Cogito و تحولاتی که این شرکت ایجاد خواهد کرد، انتظار میرود.