آمازون از مدل صوتی هوش مصنوعی جدید خود به نام «نوا سونیک» رونمایی کرد

آمازون از مدل پیشرفته هوش مصنوعی Nova Sonic رونمایی کرد

روز سه‌شنبه، آمازون از مدل جدید هوش مصنوعی خود به نام Nova Sonic پرده‌برداری کرد؛ مدلی که قابلیت پردازش صوت و تولید گفتاری طبیعی را به‌صورت بومی داراست. این مدل که به عنوان یکی از پیشرفته‌ترین مدل‌های صوتی شناخته می‌شود، طبق ادعای آمازون، در معیارهای مرتبط با سرعت، تشخیص گفتار و کیفیت مکالمه عملکردی هم‌سطح با مدل‌های برتر مانند OpenAI و گوگل دارد.

تکنولوژی جدید در مقابل دستیارهای دیجیتال قدیمی
Nova Sonic پاسخ آمازون به مدل‌های هوش مصنوعی صوتی جدید مانند حالت صوتی ChatGPT است، که نسبت به مدل‌های قدیمی‌تر نظیر آمازون الکسا، تعامل طبیعی‌تری را فراهم می‌کند. پیشرفت‌های تکنولوژیکی اخیر موجب شده است که مدل‌های قدیمی‌تر و دستیارهای دیجیتالی از جمله Siri اپل، در مقایسه با مدل‌های جدید، به شکل قابل توجهی محدود و خشک به نظر برسند.

دسترسی و قابلیت Nova Sonic
Nova Sonic از طریق پلتفرم توسعه‌دهنده آمازون به نام Bedrock، که برای ساخت اپلیکیشن‌های هوش مصنوعی سازمانی طراحی شده است، در دسترس قرار گرفته. این مدل از API جدید استریم دوطرفه بهره می‌برد که امکان تعامل پیشرفته بین دستگاه و کاربر را فراهم می‌کند.

آمازون این مدل را به‌عنوان «مقرون‌به‌صرفه‌ترین» مدل صوتی هوش مصنوعی معرفی کرده و اعلام کرده که هزینه استفاده از آن تا 80 درصد کمتر از مدل GPT-4o شرکت OpenAI است. همچنین برخی از اجزای Nova Sonic هم‌اکنون در نسخه ارتقایافته الکسا، به نام Alexa+، استفاده می‌شوند.

عملکرد برتر در درک زبان و کیفیت ارتباط
طی یک مصاحبه با رسانه TechCrunch، روهیت پراساد، معاون ارشد آمازون و دانشمند ارشد AGI، عنوان کرد که Nova Sonic با بهره‌گیری از تخصص آمازون در سیستم‌های ارکسترال بزرگ، توانایی عالی در مسیریابی درخواست‌های کاربران به APIهای مختلف دارد. این قابلیت به مدل کمک می‌کند تا اطلاعات مناسب را از اینترنت جمع‌آوری کند، داده‌های تخصصی را پردازش کند یا در اپلیکیشن‌های خارجی اقداماتی انجام دهد.

Nova Sonic همچنین قابلیت تولید متن پیاده‌سازی شده از صحبت‌های کاربر را دارد که توسعه‌دهندگان می‌توانند از آن برای کاربردهای مختلف استفاده کنند. این مدل نسبت به مدل‌های دیگر هوش مصنوعی در تشخیص گفتار، حتی در محیط‌های پر سر و صدا یا زمانی که کاربر به وضوح صحبت نمی‌کند، خطای کمتری دارد. به گفته آمازون، Nova Sonic در آزمون Multilingual LibriSpeech، نرخ خطای واژگانی (WER) معادل 4.2 درصد داشته که نشان‌دهنده دقت بالای آن در چهار زبان اصلی اروپایی شامل انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی است.

همچنین بر اساس آزمون Augmented Multi Party Interaction، دقت Nova Sonic در تعاملات چندنفره 46.7 درصد بیشتر از مدل GPT-4o OpenAI بوده است. از نظر سرعت پاسخ‌دهی نیز، Nova Sonic پیشتاز است و با میانگین زمان تاخیر 1.09 ثانیه پاسخ می‌دهد که طبق بررسی‌های انجام‌شده سریع‌تر از مدل Real-time API OpenAI است.

استراتژی هوش مصنوعی عمومی (AGI) آمازون
Nova Sonic بخشی از استراتژی بلندمدت آمازون در توسعه هوش مصنوعی عمومی (AGI) است که به گفته پراساد، شامل سیستم‌هایی می‌شود که قادرند تمامی کارهایی که یک انسان می‌تواند روی کامپیوتر انجام دهد، انجام دهند. آمازون برنامه دارد در آینده مدل‌های بیشتری را معرفی کند که توانایی درک و پردازش داده‌ای در قالب‌های مختلف، از جمله تصویر، ویدئو، صوت و سایر داده‌های حسی مرتبط را دارند.

چشم‌انداز آینده
Nova Sonic اولین گام آمازون در ارائه مدل‌های داخلی هوش مصنوعی به توسعه‌دهندگان است تا بتوانند از این قابلیت‌ها در اپلیکیشن‌های خود بهره‌مند شوند. هفته گذشته، آمازون همچنین نسخه پیش‌نمایش Nova Act را معرفی کرد؛ مدلی که به عنوان یک هوش مصنوعی مبتنی بر مرورگر عمل کرده و بخشی از ویژگی‌های جدید Alexa+ و قابلیت «خرید برای من» آمازون را تقویت می‌کند.

Nova Sonic نشان‌دهنده تحول بزرگ آمازون در زمینه دستیارهای هوش مصنوعی و تلاش آن برای ارائه توانمندی‌های هوش مصنوعی پیشرفته‌تر در خدمت کاربران، توسعه‌دهندگان و صنایع مختلف است.

دستیار هوش مصنوعی

آمازون از مدل صوتی هوش مصنوعی جدید خود به نام «نوا سونیک» رونمایی کرد

دیدگاه‌ خود را بنویسید لغو پاسخ