OpenAI مدل صوتی جدید «gpt-realtime» را همراه با عرضه عمومی Realtime API معرفی کرد؛ نسخه‌ای که هدفش ارائه صدای طبیعی‌تر و پاسخ‌های گفتاری بلادرنگ برای کاربردهای سازمانی است. این رونمایی گام دیگری در رقابت فزاینده میان تأمین‌کنندگان راهکارهای هوش مصنوعی صوتی است که می‌کوشند ترکیبی از کیفیت صوتی طبیعی، توانایی پیروی از دستورالعمل‌های پیچیده و امنیت سطح سازمانی را عرضه کنند.

ویژگی‌های کلیدی gpt-realtime
– پردازش گفتار به گفتار (speech-to-speech): مدل قادر است ورودی صوتی را در لحظه درک و به‌صورت گفتاری پاسخ دهد؛ مناسب برای سناریوهای تعاملی مانند خدمات مشتری یا ترجمه هم‌زمان.
– صدای انسانی و بیانیه‌ای‌تر: OpenAI می‌گوید صدای این مدل «طبیعی‌تر و بیان‌مندتر» است و توانایی شکار نکات غیرکلامی مثل خنده یا آه را دارد.
– دنبال کردن دستورالعمل‌های پیچیده: مدل می‌تواند دستوراتی مانند «با تاکید و لهجهٔ فرانسوی صحبت کن» را اجرا کند—قابلیتی که در نمایش‌های زنده با نمونه‌های واقعی تست شده است.
– چندزبانه و قابلیت تغییر زبان در میان جمله: مانند مدل‌های صوتی پیشین، gpt-realtime می‌تواند در میانهٔ جمله بین زبان‌ها سوئیچ کند، امکانی که برای خدمات بین‌المللی حیاتی است.
– بهبود عملکرد در ارزیابی‌های صوتی: در بنچمارک Big Bench Audio، OpenAI گزارش داده مدل جدید 82.8% دقت دارد در مقابل 65.6% مدل قبلی؛ همچنین امتیاز 30.5% در معیار MultiChallenge audio اعلام شده است. لازم به ذکر است که OpenAI مقایسهٔ مستقیم با مدل‌های رقبا را منتشر نکرده است.

قابلیت‌های جدید Realtime API برای یکپارچه‌سازی سازمانی
– عرضه عمومی Realtime API که امکان استفاده از gpt-realtime را در اپلیکیشن‌ها فراهم می‌کند.
– پشتیبانی از MCP و ورودی‌های تصویری: مدل می‌تواند ورودی‌های تصویری را نیز تشخیص دهد و در زمان واقعی دربارهٔ محتوای دیداری توضیح دهد—ویژگی‌ای که کاربرد در سناریوهای پشتیبانی تصویری و پژوهشی دارد.
– پشتیبانی از پروتکل Session Initiation Protocol (SIP): امکان اتصال به شبکه‌های تلفنی و تلفن‌های رومیزی را فراهم کرده و درهای جدیدی برای پیاده‌سازی در مراکز تماس سازمانی می‌گشاید.
– ذخیره و استفاده مجدد از پرامپت‌ها و تقویت function calling تا مدل بتواند ابزارها و توابع مناسب را فراخوانی کند و جریان کاری واقعی سازمان‌ها را پشتیبانی نماید.

نمونه‌های کاربردی و همکاری با مشتریان
OpenAI در جریان رونمایی، نمونه‌های واقعی مشتریان خود را نشان داد: یک عامل صوتی برای فروش تلفن همراه توسط T-Mobile و یک دستیار برای کمک در جستجوی ملک توسط Zillow. این نمونه‌ها نشان می‌دهد که gpt-realtime برای سناریوهای تعامل مشتری—مانند بازگشت کالا، راهنمایی خرید یا محدود کردن گزینه‌های محله برای خرید خانه—طراحی شده است.

رقابت و محدودیت‌ها
بازار مدل‌های صوتی سازمانی بسیار رقابتی است. رقبایی مانند ElevenLabs (با Conversation AI 2.0)، Hume (EVI 3)، Soundhound (پروژه‌های درایو-ترو AI)، و شرکت‌هایی مانند Mistral و Google با ویژگی‌های صوتی تقویت‌شده، همه در این میدان فعال‌اند. در حالی که OpenAI پیشرفت‌های قابل توجهی در کیفیت و انطباق با دستورالعمل‌ها نشان داده، شرکت اشاره کرده که مقایسهٔ مستقیم با رقبا منتشر نشده است. از سوی دیگر، برخی توسعه‌دهندگان مسایل زیر را گزارش داده‌اند: بهبود در فراخوانی توابع و بیان احساسات، کاهش قیمت 20%، اما نبود «صداهای سفارشی» برای تجربه‌های خلاقانه و هزینه‌بر بودن در مقایسه با زنجیره‌های TTS+LLM+STT در برخی کاربردها.

قیمت‌گذاری
OpenAI اعلام کرده قیمت gpt-realtime پس از کاهش 20% معادل 32 دلار به ازای هر میلیون توکن ورودی صوتی و 64 دلار برای هر میلیون توکن خروجی صوتی است—رقمی که سازمان‌ها باید در تحلیل هزینه-فایده پیاده‌سازی‌های صوتی در نظر بگیرند.

جمع‌بندی
gpt-realtime و قابلیت‌های جدید Realtime API گام مهمی به سوی استقرار هوش مصنوعی صوتی در مقیاس سازمانی هستند، به‌ویژه برای مراکز تماس، خدمات مشتری و اپلیکیشن‌های تعامل بلادرنگ. با این حال، ارزیابی دقیق عملکرد در مقایسه با رقبا، امکان تولید صداهای کاملاً سفارشی و تحلیل اقتصادی نسبت به راهکارهای ترکیبی موجود، فاکتورهای کلیدی برای تصمیم‌گیری سازمان‌ها خواهند بود.

مشاور صوتی آنلاین

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا