مدل‌های جدید آزمایشگاه هندی ساروام؛ شرطی بزرگ روی آینده هوش مصنوعی متن‌باز

ساروام هند نسل جدید مدل‌های زبان بزرگ و چندرسانه‌ای خود را رونمایی کرد

استارتاپ هندی Sarvam روز سه‌شنبه در جریان اجلاس India AI Impact Summit در دهلی‌نو از نسل جدیدی از مدل‌های زبان بزرگ (Large Language Models) و مدل‌های چندرسانه‌ای رونمایی کرد. این حرکت در راستای تلاش دولت هند برای کاهش وابستگی به پلتفرم‌های خارجی هوش مصنوعی و تطبیق مدل‌ها با زبان‌ها و نیازهای محلی صورت گرفته است.

جزییات فنی و نوآوری‌ها
– خانواده جدید شامل دو مدل اصلی 30 میلیارد و 105 میلیارد پارامتری، یک مدل متن‌به‌صدا (text-to-speech)، یک مدل گفتار‌به‌متن (speech-to-text) و یک مدل بینایی برای تجزیه و تحلیل اسناد است. این ارتقاء چشمگیر در مقایسه با مدل Sarvam 1 با دو میلیارد پارامتر که اکتبر ۲۰۲۴ عرضه شد، به‌شمار می‌آید.
– هر دو مدل 30B و 105B از معماری mixture-of-experts استفاده می‌کنند؛ در این معماری تنها بخشی از پارامترها برای هر درخواست فعال می‌شود که به‌طور قابل‌توجهی هزینه‌های محاسباتی و مصرف انرژی را کاهش می‌دهد.
– مدل 30B از پنجره زمینه‌ای 32,000 توکن برای کاربردهای گفت‌وگوی بلادرنگ پشتیبانی می‌کند، در حالی که مدل 105B پنجره‌ای تا 128,000 توکن فراهم می‌آورد که برای استدلال‌های چندمرحله‌ای و تحلیل اسناد بلند مناسب است.
– ساروام تأکید کرده است که این مدل‌ها «از ابتدا» آموزش داده شده‌اند و بر خلاف برخی پروژه‌ها تنها با فاین‌تیون روی مدل‌های متن‌باز موجود ساخته نشده‌اند. مدل 30B بر پایه حدود 16 تریلیون توکن پیش‌آموزش شده و مدل 105B نیز روی تریلیون‌ها توکن شامل زبان‌های مختلف هندی آموزش یافته است.

کاربردها و اهداف تجاری
ساروام می‌گوید این مدل‌ها برای کاربردهای بلادرنگ طراحی شده‌اند؛ از جمله دستیارهای صوتی و سیستم‌های چت در زبان‌های هندی، استخراج اطلاعات از اسناد و خدمات سازمانی. این شرکت برنامه‌هایی برای توسعه مدل‌های تخصصی از جمله مدل‌های متمرکز بر برنامه‌نویسی و ابزارهای سازمانی تحت عنوان «Sarvam for Work» و پلتفرم عامل گفت‌وگو به نام «Samvaad» دارد.

زیرساخت و حمایت‌ها
آموزش این مدل‌ها با استفاده از منابع محاسباتی تحت حمایت پروژه دولتی IndiaAI Mission انجام شده و زیرساخت دیتاسنتر از سوی اپراتور Yotta و پشتیبانی فنی از سوی Nvidia فراهم شده است؛ ترکیبی که نشان‌دهنده همکاری بخش خصوصی و نهادهای دولتی برای پیشبرد ظرفیت‌های بومی هوش مصنوعی در هند است.

سیاست متن‌باز و شفافیت
ساروام اعلام کرده قصد دارد مدل‌های 30B و 105B را متن‌باز کند، اما هنوز درباره انتشار کامل داده‌های آموزشی یا کد آموزش تصمیم‌گیری قطعی اعلام نکرده است. انتشار کد و داده‌ها می‌تواند در زمینه شفافیت، بررسی اخلاقی و پذیرش جامعه تحقیقاتی نقش تعیین‌کننده‌ای داشته باشد.

رویکرد متعادل در مقیاس‌دهی
مدیران ساروام تأکید کرده‌اند که قصد رشد و مقیاس‌دهی را با رویکردی محتاطانه و مبتنی بر نیازهای واقعی بازار دنبال می‌کنند و نه صرفاً افزایش بی‌هدف اندازه مدل‌ها. بنیان‌گذار شرکت، پراتیوش کومار، در مراسم رونمایی اظهار داشت که تمرکز بر «درک وظایف با اهمیت در مقیاس» و ساخت راه‌حل‌های کاربردی مدنظر است.

پیشینه مالی و سرمایه‌گذاری
ساروام که در سال ۲۰۲۳ تأسیس شد، بیش از ۵۰ میلیون دلار سرمایه جذب کرده است و سرمایه‌گذارانی مانند Lightspeed Venture Partners، Khosla Ventures و Peak XV Partners (پیش‌تر Sequoia Capital India) در میان حامیان آن هستند.

اهمیت برای بازار و آینده
معرفی این خانواده مدل‌ها نشان‌دهنده گرایش فزاینده به سمت مدل‌های باز، کارآمد و بومی‌سازی‌شده است که می‌توانند هزینه‌ها را کاهش داده و خدمات هوش مصنوعی را در زبان‌ها و حوزه‌های خاص محلی قابل‌دسترس‌تر کنند. اگر ساروام شفافیت لازم در انتشار مدل و داده‌ها را رعایت کند، این پروژه می‌تواند نمونه‌ای تاثیرگذار از سیاست‌های استقلال فناوری و توسعه ظرفیت‌های محلی در حوزه هوش مصنوعی باشد.

تبدیل صوت به متن با هوش مصنوعی

مدل‌های جدید آزمایشگاه هندی ساروام؛ شرطی بزرگ روی آینده هوش مصنوعی متن‌باز

دیدگاه‌ خود را بنویسید لغو پاسخ