آمازون از مدل صوتی Nova Sonic برای توسعه‌ سازمانی رونمایی کرد: رقابت جدید در دنیای دستیارهای صوتی

آمازون Nova Sonic: نسل جدید مدل‌های هوش مصنوعی صوتی، انقلابی در تعاملات گفتگویی زنده

آمازون، بزرگ‌ترین پلتفرم تجارت الکترونیک و خالق دستیار صوتی محبوب Alexa، بار دیگر در حوزه هوش مصنوعی و فناوری‌های صوتی پیشگام شد. این شرکت اخیراً از مدل جدید هوش مصنوعی صوتی خود، Nova Sonic، رونمایی کرده است. این مدل پیشرفته، به‌طور خاص برای توسعه‌دهندگان طراحی شده است تا بتوانند تعاملات گفتگویی طبیعی و زنده را به‌وسیله API دوطرفه در محصولات خود پیاده‌سازی کنند. Nova Sonic از امروز از طریق پلتفرم وب Amazon Bedrock در دسترس قرار گرفته است.

تحولی در فناوری صوتی

Nova Sonic با هدف حل یکی از چالش‌های عمده در حوزه هوش مصنوعی صوتی طراحی شده است: پیچیدگی و پراکندگی فناوری‌ها. طبق گفته روهیت پراساد، نایب رئیس ارشد و دانشمند ارشد هوش مصنوعی عمومی آمازون، این مدل سه فناوری کلیدی—تشخیص گفتار، پردازش زبان، و سنتز گفتار—را در یک سیستم یکپارچه ادغام کرده است.

پراساد در مصاحبه‌ای با VentureBeat توضیح داد: “Nova Sonic نه تنها آنچه گفته شده را درک می‌کند، بلکه به نحوه بیان آن نیز توجه دارد. با حفظ ویژگی‌های صوتی مانند تن صدا، ریتم و سبک، این مدل موفق به شبیه‌سازی دقیق‌تر گفتار انسانی شده است.”

تعاملات زنده و طبیعی

یکی از ویژگی‌های برجسته Nova Sonic توانایی مدیریت مکالمات زنده و دوطرفه است. این مدل رفتارهای طبیعی انسانی مانند مکث، تردید یا قطع صحبت را تشخیص داده و پاسخ‌هایی روان و پیوسته ارائه می‌دهد. پراساد اضافه کرد: “نوآوری واقعی در تعاملات زنده با تأخیر پایین است، به‌طوری‌که کاربران می‌توانند در وسط جمله هوش مصنوعی صحبت کنند و همچنان پاسخ دقیق و مرتبط دریافت کنند.”

این ویژگی به‌ویژه در کاربردهایی نظیر خدمات مشتریان و مراکز تماس بسیار مفید است، جایی که سرعت، دقت و انعطاف‌پذیری عامل‌های هوش مصنوعی ضروری است.

یکپارچگی آسان با سیستم‌های دیگر

Nova Sonic به‌گونه‌ای طراحی شده است که به‌سادگی با ابزارها و دیتابیس‌هایی که از API استفاده می‌کنند، تعامل داشته باشد. این قابلیت امکان توسعه عامل‌های هوش مصنوعی برای وظایفی مانند رزرو وقت، ارائه اطلاعات زنده یا پاسخ به پرسش‌های پیچیده مشتریان را فراهم می‌آورد.

براساس گفته پراساد، “شما می‌توانید Nova Sonic را از طریق Amazon Bedrock به هر ابزار یا منبع داده‌ای متصل کنید، به شرطی که قابل فراخوانی از طریق API باشند.”

عملکرد برجسته در بنچمارک‌ها

Nova Sonic در آزمایش‌های مقایسه‌ای عملکردی چشمگیر از خود نشان داده است. در رقابت با مدل‌های قدرتمندی مانند OpenAI GPT-4o و Google Gemini Flash 2.0، این مدل توانسته در مکالمات گفتگوی انگلیسی آمریکا و بریتانیا صدرنشین شود. همچنین، Nova Sonic در شناسایی گفتار در محیط‌های چندزبانه و پرسروصدا، به عملکرد بهتری نسبت به GPT-4o دست یافته است. برای مثال، در آزمون Multilingual LibriSpeech نرخ خطای کلمات (WER) تنها 4.2٪ بود که نشان‌دهنده برتری 36٪ نسبت به مدل‌های مشابه است.

اقتصادی و پرسرعت

از لحاظ هزینه و سرعت، Nova Sonic گزینه‌ای متمایز برای شرکت‌ها است. این مدل تأخیر در تعاملات صوتی را به 1.09 ثانیه کاهش داده است، در حالی که قیمت آن تقریباً 80٪ ارزان‌تر از سایر رقبا است. این ویژگی‌ها باعث شده‌اند که Nova Sonic به انتخاب اول شرکت‌هایی که از آزمایش به مرحله اجرا رسیده‌اند، تبدیل شود.

استفاده در صنایع مختلف

شرکت‌های مختلف در حال بهره‌گیری از Nova Sonic برای اهداف متنوعی هستند. ASAPP از این مدل برای بهبود کیفیت عملکرد مراکز تماس استفاده کرده است، در حالی که Education First (EF) از توانایی‌های Nova Sonic در ارائه بازخورد تلفظ برای زبان‌آموزان بهره‌ می‌برد. همچنین، Stats Perform برای ارائه تعاملات سریع و داده‌محور در پلتفرم Opta AI Chat خود، از این تکنولوژی بهره می‌گیرد.

تعهد به توسعه مسئولانه

آمازون همچنین تعهد خود را به توسعه هوش مصنوعی مسئولانه با ارائه سیستم‌های محافظتی و کارت‌های خدمات AI نشان داده است. این کارت‌ها دستورالعمل‌هایی درباره موارد استفاده مناسب، محدودیت‌ها و راهنمایی‌های اخلاقی ارائه می‌دهند. پراساد تأکید کرد: “اعتماد برای ما بسیار مهم است. ما ابزارهایی برای جلوگیری از سوءاستفاده‌هایی مانند تقلید صدا یا شبیه‌سازی غیرمجاز ایجاد کرده‌ایم.”

دسترسی و استفاده

Nova Sonic اکنون از طریق Amazon Bedrock در دسترس است. توسعه‌دهندگان و شرکت‌ها می‌توانند با مراجعه به صفحه رسمی آمازون اطلاعات بیشتری کسب کنند و این مدل را در پروژه‌های خود استفاده کنند.

برای دریافت آخرین اخبار و تحلیل‌ها درباره هوش مصنوعی و فناوری‌های مرتبط، به خبرنامه‌های روزانه و هفتگی بینا ویرا بپیوندید!

خوانش متن با صدای طبیعی