OpenAI مدل صوتی جدید «gpt-realtime» را همراه با عرضه عمومی Realtime API معرفی کرد؛ نسخهای که هدفش ارائه صدای طبیعیتر و پاسخهای گفتاری بلادرنگ برای کاربردهای سازمانی است. این رونمایی گام دیگری در رقابت فزاینده میان تأمینکنندگان راهکارهای هوش مصنوعی صوتی است که میکوشند ترکیبی از کیفیت صوتی طبیعی، توانایی پیروی از دستورالعملهای پیچیده و امنیت سطح سازمانی را عرضه کنند.
ویژگیهای کلیدی gpt-realtime
– پردازش گفتار به گفتار (speech-to-speech): مدل قادر است ورودی صوتی را در لحظه درک و بهصورت گفتاری پاسخ دهد؛ مناسب برای سناریوهای تعاملی مانند خدمات مشتری یا ترجمه همزمان.
– صدای انسانی و بیانیهایتر: OpenAI میگوید صدای این مدل «طبیعیتر و بیانمندتر» است و توانایی شکار نکات غیرکلامی مثل خنده یا آه را دارد.
– دنبال کردن دستورالعملهای پیچیده: مدل میتواند دستوراتی مانند «با تاکید و لهجهٔ فرانسوی صحبت کن» را اجرا کند—قابلیتی که در نمایشهای زنده با نمونههای واقعی تست شده است.
– چندزبانه و قابلیت تغییر زبان در میان جمله: مانند مدلهای صوتی پیشین، gpt-realtime میتواند در میانهٔ جمله بین زبانها سوئیچ کند، امکانی که برای خدمات بینالمللی حیاتی است.
– بهبود عملکرد در ارزیابیهای صوتی: در بنچمارک Big Bench Audio، OpenAI گزارش داده مدل جدید 82.8% دقت دارد در مقابل 65.6% مدل قبلی؛ همچنین امتیاز 30.5% در معیار MultiChallenge audio اعلام شده است. لازم به ذکر است که OpenAI مقایسهٔ مستقیم با مدلهای رقبا را منتشر نکرده است.
قابلیتهای جدید Realtime API برای یکپارچهسازی سازمانی
– عرضه عمومی Realtime API که امکان استفاده از gpt-realtime را در اپلیکیشنها فراهم میکند.
– پشتیبانی از MCP و ورودیهای تصویری: مدل میتواند ورودیهای تصویری را نیز تشخیص دهد و در زمان واقعی دربارهٔ محتوای دیداری توضیح دهد—ویژگیای که کاربرد در سناریوهای پشتیبانی تصویری و پژوهشی دارد.
– پشتیبانی از پروتکل Session Initiation Protocol (SIP): امکان اتصال به شبکههای تلفنی و تلفنهای رومیزی را فراهم کرده و درهای جدیدی برای پیادهسازی در مراکز تماس سازمانی میگشاید.
– ذخیره و استفاده مجدد از پرامپتها و تقویت function calling تا مدل بتواند ابزارها و توابع مناسب را فراخوانی کند و جریان کاری واقعی سازمانها را پشتیبانی نماید.
نمونههای کاربردی و همکاری با مشتریان
OpenAI در جریان رونمایی، نمونههای واقعی مشتریان خود را نشان داد: یک عامل صوتی برای فروش تلفن همراه توسط T-Mobile و یک دستیار برای کمک در جستجوی ملک توسط Zillow. این نمونهها نشان میدهد که gpt-realtime برای سناریوهای تعامل مشتری—مانند بازگشت کالا، راهنمایی خرید یا محدود کردن گزینههای محله برای خرید خانه—طراحی شده است.
رقابت و محدودیتها
بازار مدلهای صوتی سازمانی بسیار رقابتی است. رقبایی مانند ElevenLabs (با Conversation AI 2.0)، Hume (EVI 3)، Soundhound (پروژههای درایو-ترو AI)، و شرکتهایی مانند Mistral و Google با ویژگیهای صوتی تقویتشده، همه در این میدان فعالاند. در حالی که OpenAI پیشرفتهای قابل توجهی در کیفیت و انطباق با دستورالعملها نشان داده، شرکت اشاره کرده که مقایسهٔ مستقیم با رقبا منتشر نشده است. از سوی دیگر، برخی توسعهدهندگان مسایل زیر را گزارش دادهاند: بهبود در فراخوانی توابع و بیان احساسات، کاهش قیمت 20%، اما نبود «صداهای سفارشی» برای تجربههای خلاقانه و هزینهبر بودن در مقایسه با زنجیرههای TTS+LLM+STT در برخی کاربردها.
قیمتگذاری
OpenAI اعلام کرده قیمت gpt-realtime پس از کاهش 20% معادل 32 دلار به ازای هر میلیون توکن ورودی صوتی و 64 دلار برای هر میلیون توکن خروجی صوتی است—رقمی که سازمانها باید در تحلیل هزینه-فایده پیادهسازیهای صوتی در نظر بگیرند.
جمعبندی
gpt-realtime و قابلیتهای جدید Realtime API گام مهمی به سوی استقرار هوش مصنوعی صوتی در مقیاس سازمانی هستند، بهویژه برای مراکز تماس، خدمات مشتری و اپلیکیشنهای تعامل بلادرنگ. با این حال، ارزیابی دقیق عملکرد در مقایسه با رقبا، امکان تولید صداهای کاملاً سفارشی و تحلیل اقتصادی نسبت به راهکارهای ترکیبی موجود، فاکتورهای کلیدی برای تصمیمگیری سازمانها خواهند بود.
