آمازون Nova Sonic: نسل جدید مدلهای هوش مصنوعی صوتی، انقلابی در تعاملات گفتگویی زنده
آمازون، بزرگترین پلتفرم تجارت الکترونیک و خالق دستیار صوتی محبوب Alexa، بار دیگر در حوزه هوش مصنوعی و فناوریهای صوتی پیشگام شد. این شرکت اخیراً از مدل جدید هوش مصنوعی صوتی خود، Nova Sonic، رونمایی کرده است. این مدل پیشرفته، بهطور خاص برای توسعهدهندگان طراحی شده است تا بتوانند تعاملات گفتگویی طبیعی و زنده را بهوسیله API دوطرفه در محصولات خود پیادهسازی کنند. Nova Sonic از امروز از طریق پلتفرم وب Amazon Bedrock در دسترس قرار گرفته است.
تحولی در فناوری صوتی
Nova Sonic با هدف حل یکی از چالشهای عمده در حوزه هوش مصنوعی صوتی طراحی شده است: پیچیدگی و پراکندگی فناوریها. طبق گفته روهیت پراساد، نایب رئیس ارشد و دانشمند ارشد هوش مصنوعی عمومی آمازون، این مدل سه فناوری کلیدی—تشخیص گفتار، پردازش زبان، و سنتز گفتار—را در یک سیستم یکپارچه ادغام کرده است.
پراساد در مصاحبهای با VentureBeat توضیح داد: “Nova Sonic نه تنها آنچه گفته شده را درک میکند، بلکه به نحوه بیان آن نیز توجه دارد. با حفظ ویژگیهای صوتی مانند تن صدا، ریتم و سبک، این مدل موفق به شبیهسازی دقیقتر گفتار انسانی شده است.”
تعاملات زنده و طبیعی
یکی از ویژگیهای برجسته Nova Sonic توانایی مدیریت مکالمات زنده و دوطرفه است. این مدل رفتارهای طبیعی انسانی مانند مکث، تردید یا قطع صحبت را تشخیص داده و پاسخهایی روان و پیوسته ارائه میدهد. پراساد اضافه کرد: “نوآوری واقعی در تعاملات زنده با تأخیر پایین است، بهطوریکه کاربران میتوانند در وسط جمله هوش مصنوعی صحبت کنند و همچنان پاسخ دقیق و مرتبط دریافت کنند.”
این ویژگی بهویژه در کاربردهایی نظیر خدمات مشتریان و مراکز تماس بسیار مفید است، جایی که سرعت، دقت و انعطافپذیری عاملهای هوش مصنوعی ضروری است.
یکپارچگی آسان با سیستمهای دیگر
Nova Sonic بهگونهای طراحی شده است که بهسادگی با ابزارها و دیتابیسهایی که از API استفاده میکنند، تعامل داشته باشد. این قابلیت امکان توسعه عاملهای هوش مصنوعی برای وظایفی مانند رزرو وقت، ارائه اطلاعات زنده یا پاسخ به پرسشهای پیچیده مشتریان را فراهم میآورد.
براساس گفته پراساد، “شما میتوانید Nova Sonic را از طریق Amazon Bedrock به هر ابزار یا منبع دادهای متصل کنید، به شرطی که قابل فراخوانی از طریق API باشند.”
عملکرد برجسته در بنچمارکها
Nova Sonic در آزمایشهای مقایسهای عملکردی چشمگیر از خود نشان داده است. در رقابت با مدلهای قدرتمندی مانند OpenAI GPT-4o و Google Gemini Flash 2.0، این مدل توانسته در مکالمات گفتگوی انگلیسی آمریکا و بریتانیا صدرنشین شود. همچنین، Nova Sonic در شناسایی گفتار در محیطهای چندزبانه و پرسروصدا، به عملکرد بهتری نسبت به GPT-4o دست یافته است. برای مثال، در آزمون Multilingual LibriSpeech نرخ خطای کلمات (WER) تنها 4.2٪ بود که نشاندهنده برتری 36٪ نسبت به مدلهای مشابه است.
اقتصادی و پرسرعت
از لحاظ هزینه و سرعت، Nova Sonic گزینهای متمایز برای شرکتها است. این مدل تأخیر در تعاملات صوتی را به 1.09 ثانیه کاهش داده است، در حالی که قیمت آن تقریباً 80٪ ارزانتر از سایر رقبا است. این ویژگیها باعث شدهاند که Nova Sonic به انتخاب اول شرکتهایی که از آزمایش به مرحله اجرا رسیدهاند، تبدیل شود.
استفاده در صنایع مختلف
شرکتهای مختلف در حال بهرهگیری از Nova Sonic برای اهداف متنوعی هستند. ASAPP از این مدل برای بهبود کیفیت عملکرد مراکز تماس استفاده کرده است، در حالی که Education First (EF) از تواناییهای Nova Sonic در ارائه بازخورد تلفظ برای زبانآموزان بهره میبرد. همچنین، Stats Perform برای ارائه تعاملات سریع و دادهمحور در پلتفرم Opta AI Chat خود، از این تکنولوژی بهره میگیرد.
تعهد به توسعه مسئولانه
آمازون همچنین تعهد خود را به توسعه هوش مصنوعی مسئولانه با ارائه سیستمهای محافظتی و کارتهای خدمات AI نشان داده است. این کارتها دستورالعملهایی درباره موارد استفاده مناسب، محدودیتها و راهنماییهای اخلاقی ارائه میدهند. پراساد تأکید کرد: “اعتماد برای ما بسیار مهم است. ما ابزارهایی برای جلوگیری از سوءاستفادههایی مانند تقلید صدا یا شبیهسازی غیرمجاز ایجاد کردهایم.”
دسترسی و استفاده
Nova Sonic اکنون از طریق Amazon Bedrock در دسترس است. توسعهدهندگان و شرکتها میتوانند با مراجعه به صفحه رسمی آمازون اطلاعات بیشتری کسب کنند و این مدل را در پروژههای خود استفاده کنند.
برای دریافت آخرین اخبار و تحلیلها درباره هوش مصنوعی و فناوریهای مرتبط، به خبرنامههای روزانه و هفتگی بینا ویرا بپیوندید!