آمازون از مدل پیشرفته هوش مصنوعی Nova Sonic رونمایی کرد
روز سهشنبه، آمازون از مدل جدید هوش مصنوعی خود به نام Nova Sonic پردهبرداری کرد؛ مدلی که قابلیت پردازش صوت و تولید گفتاری طبیعی را بهصورت بومی داراست. این مدل که به عنوان یکی از پیشرفتهترین مدلهای صوتی شناخته میشود، طبق ادعای آمازون، در معیارهای مرتبط با سرعت، تشخیص گفتار و کیفیت مکالمه عملکردی همسطح با مدلهای برتر مانند OpenAI و گوگل دارد.
تکنولوژی جدید در مقابل دستیارهای دیجیتال قدیمی
Nova Sonic پاسخ آمازون به مدلهای هوش مصنوعی صوتی جدید مانند حالت صوتی ChatGPT است، که نسبت به مدلهای قدیمیتر نظیر آمازون الکسا، تعامل طبیعیتری را فراهم میکند. پیشرفتهای تکنولوژیکی اخیر موجب شده است که مدلهای قدیمیتر و دستیارهای دیجیتالی از جمله Siri اپل، در مقایسه با مدلهای جدید، به شکل قابل توجهی محدود و خشک به نظر برسند.
دسترسی و قابلیت Nova Sonic
Nova Sonic از طریق پلتفرم توسعهدهنده آمازون به نام Bedrock، که برای ساخت اپلیکیشنهای هوش مصنوعی سازمانی طراحی شده است، در دسترس قرار گرفته. این مدل از API جدید استریم دوطرفه بهره میبرد که امکان تعامل پیشرفته بین دستگاه و کاربر را فراهم میکند.
آمازون این مدل را بهعنوان «مقرونبهصرفهترین» مدل صوتی هوش مصنوعی معرفی کرده و اعلام کرده که هزینه استفاده از آن تا 80 درصد کمتر از مدل GPT-4o شرکت OpenAI است. همچنین برخی از اجزای Nova Sonic هماکنون در نسخه ارتقایافته الکسا، به نام Alexa+، استفاده میشوند.
عملکرد برتر در درک زبان و کیفیت ارتباط
طی یک مصاحبه با رسانه TechCrunch، روهیت پراساد، معاون ارشد آمازون و دانشمند ارشد AGI، عنوان کرد که Nova Sonic با بهرهگیری از تخصص آمازون در سیستمهای ارکسترال بزرگ، توانایی عالی در مسیریابی درخواستهای کاربران به APIهای مختلف دارد. این قابلیت به مدل کمک میکند تا اطلاعات مناسب را از اینترنت جمعآوری کند، دادههای تخصصی را پردازش کند یا در اپلیکیشنهای خارجی اقداماتی انجام دهد.
Nova Sonic همچنین قابلیت تولید متن پیادهسازی شده از صحبتهای کاربر را دارد که توسعهدهندگان میتوانند از آن برای کاربردهای مختلف استفاده کنند. این مدل نسبت به مدلهای دیگر هوش مصنوعی در تشخیص گفتار، حتی در محیطهای پر سر و صدا یا زمانی که کاربر به وضوح صحبت نمیکند، خطای کمتری دارد. به گفته آمازون، Nova Sonic در آزمون Multilingual LibriSpeech، نرخ خطای واژگانی (WER) معادل 4.2 درصد داشته که نشاندهنده دقت بالای آن در چهار زبان اصلی اروپایی شامل انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی است.
همچنین بر اساس آزمون Augmented Multi Party Interaction، دقت Nova Sonic در تعاملات چندنفره 46.7 درصد بیشتر از مدل GPT-4o OpenAI بوده است. از نظر سرعت پاسخدهی نیز، Nova Sonic پیشتاز است و با میانگین زمان تاخیر 1.09 ثانیه پاسخ میدهد که طبق بررسیهای انجامشده سریعتر از مدل Real-time API OpenAI است.
استراتژی هوش مصنوعی عمومی (AGI) آمازون
Nova Sonic بخشی از استراتژی بلندمدت آمازون در توسعه هوش مصنوعی عمومی (AGI) است که به گفته پراساد، شامل سیستمهایی میشود که قادرند تمامی کارهایی که یک انسان میتواند روی کامپیوتر انجام دهد، انجام دهند. آمازون برنامه دارد در آینده مدلهای بیشتری را معرفی کند که توانایی درک و پردازش دادهای در قالبهای مختلف، از جمله تصویر، ویدئو، صوت و سایر دادههای حسی مرتبط را دارند.
چشمانداز آینده
Nova Sonic اولین گام آمازون در ارائه مدلهای داخلی هوش مصنوعی به توسعهدهندگان است تا بتوانند از این قابلیتها در اپلیکیشنهای خود بهرهمند شوند. هفته گذشته، آمازون همچنین نسخه پیشنمایش Nova Act را معرفی کرد؛ مدلی که به عنوان یک هوش مصنوعی مبتنی بر مرورگر عمل کرده و بخشی از ویژگیهای جدید Alexa+ و قابلیت «خرید برای من» آمازون را تقویت میکند.
Nova Sonic نشاندهنده تحول بزرگ آمازون در زمینه دستیارهای هوش مصنوعی و تلاش آن برای ارائه توانمندیهای هوش مصنوعی پیشرفتهتر در خدمت کاربران، توسعهدهندگان و صنایع مختلف است.