ساروام هند نسل جدید مدل‌های زبان بزرگ و چندرسانه‌ای خود را رونمایی کرد

استارتاپ هندی Sarvam روز سه‌شنبه در جریان اجلاس India AI Impact Summit در دهلی‌نو از نسل جدیدی از مدل‌های زبان بزرگ (Large Language Models) و مدل‌های چندرسانه‌ای رونمایی کرد. این حرکت در راستای تلاش دولت هند برای کاهش وابستگی به پلتفرم‌های خارجی هوش مصنوعی و تطبیق مدل‌ها با زبان‌ها و نیازهای محلی صورت گرفته است.

جزییات فنی و نوآوری‌ها
– خانواده جدید شامل دو مدل اصلی 30 میلیارد و 105 میلیارد پارامتری، یک مدل متن‌به‌صدا (text-to-speech)، یک مدل گفتار‌به‌متن (speech-to-text) و یک مدل بینایی برای تجزیه و تحلیل اسناد است. این ارتقاء چشمگیر در مقایسه با مدل Sarvam 1 با دو میلیارد پارامتر که اکتبر ۲۰۲۴ عرضه شد، به‌شمار می‌آید.
– هر دو مدل 30B و 105B از معماری mixture-of-experts استفاده می‌کنند؛ در این معماری تنها بخشی از پارامترها برای هر درخواست فعال می‌شود که به‌طور قابل‌توجهی هزینه‌های محاسباتی و مصرف انرژی را کاهش می‌دهد.
– مدل 30B از پنجره زمینه‌ای 32,000 توکن برای کاربردهای گفت‌وگوی بلادرنگ پشتیبانی می‌کند، در حالی که مدل 105B پنجره‌ای تا 128,000 توکن فراهم می‌آورد که برای استدلال‌های چندمرحله‌ای و تحلیل اسناد بلند مناسب است.
– ساروام تأکید کرده است که این مدل‌ها «از ابتدا» آموزش داده شده‌اند و بر خلاف برخی پروژه‌ها تنها با فاین‌تیون روی مدل‌های متن‌باز موجود ساخته نشده‌اند. مدل 30B بر پایه حدود 16 تریلیون توکن پیش‌آموزش شده و مدل 105B نیز روی تریلیون‌ها توکن شامل زبان‌های مختلف هندی آموزش یافته است.

کاربردها و اهداف تجاری
ساروام می‌گوید این مدل‌ها برای کاربردهای بلادرنگ طراحی شده‌اند؛ از جمله دستیارهای صوتی و سیستم‌های چت در زبان‌های هندی، استخراج اطلاعات از اسناد و خدمات سازمانی. این شرکت برنامه‌هایی برای توسعه مدل‌های تخصصی از جمله مدل‌های متمرکز بر برنامه‌نویسی و ابزارهای سازمانی تحت عنوان «Sarvam for Work» و پلتفرم عامل گفت‌وگو به نام «Samvaad» دارد.

زیرساخت و حمایت‌ها
آموزش این مدل‌ها با استفاده از منابع محاسباتی تحت حمایت پروژه دولتی IndiaAI Mission انجام شده و زیرساخت دیتاسنتر از سوی اپراتور Yotta و پشتیبانی فنی از سوی Nvidia فراهم شده است؛ ترکیبی که نشان‌دهنده همکاری بخش خصوصی و نهادهای دولتی برای پیشبرد ظرفیت‌های بومی هوش مصنوعی در هند است.

سیاست متن‌باز و شفافیت
ساروام اعلام کرده قصد دارد مدل‌های 30B و 105B را متن‌باز کند، اما هنوز درباره انتشار کامل داده‌های آموزشی یا کد آموزش تصمیم‌گیری قطعی اعلام نکرده است. انتشار کد و داده‌ها می‌تواند در زمینه شفافیت، بررسی اخلاقی و پذیرش جامعه تحقیقاتی نقش تعیین‌کننده‌ای داشته باشد.

رویکرد متعادل در مقیاس‌دهی
مدیران ساروام تأکید کرده‌اند که قصد رشد و مقیاس‌دهی را با رویکردی محتاطانه و مبتنی بر نیازهای واقعی بازار دنبال می‌کنند و نه صرفاً افزایش بی‌هدف اندازه مدل‌ها. بنیان‌گذار شرکت، پراتیوش کومار، در مراسم رونمایی اظهار داشت که تمرکز بر «درک وظایف با اهمیت در مقیاس» و ساخت راه‌حل‌های کاربردی مدنظر است.

پیشینه مالی و سرمایه‌گذاری
ساروام که در سال ۲۰۲۳ تأسیس شد، بیش از ۵۰ میلیون دلار سرمایه جذب کرده است و سرمایه‌گذارانی مانند Lightspeed Venture Partners، Khosla Ventures و Peak XV Partners (پیش‌تر Sequoia Capital India) در میان حامیان آن هستند.

اهمیت برای بازار و آینده
معرفی این خانواده مدل‌ها نشان‌دهنده گرایش فزاینده به سمت مدل‌های باز، کارآمد و بومی‌سازی‌شده است که می‌توانند هزینه‌ها را کاهش داده و خدمات هوش مصنوعی را در زبان‌ها و حوزه‌های خاص محلی قابل‌دسترس‌تر کنند. اگر ساروام شفافیت لازم در انتشار مدل و داده‌ها را رعایت کند، این پروژه می‌تواند نمونه‌ای تاثیرگذار از سیاست‌های استقلال فناوری و توسعه ظرفیت‌های محلی در حوزه هوش مصنوعی باشد.

تبدیل صوت به متن با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا