بهتازگی شرکت OpenAI سه مدل صدای جدید معرفی کرده است: gpt-4o-transcribe، gpt-4o-mini-transcribe و gpt-4o-mini-tts که در ابتدا از طریق رابط برنامهنویسی (API) این شرکت در اختیار توسعهدهندگان نرمافزار قرار خواهد گرفت. این مدلها همچنین در یک سایت آزمایشی به نام OpenAI.fm برای کاربران بهمنظور آزمایش محدود و سرگرمی در دسترس خواهند بود.
یکی از ویژگیهای بارز مدل gpt-4o-mini-tts امکان سفارشیسازی صدا با استفاده از دستورات متنی است که شامل تغییر لهجه، تن و سایر ویژگیهای صوتی میشود. این امر باعث میشود کاربران بتوانند صدای هوش مصنوعی خود را مطابق با خواست خود تنظیم کنند.
در یک نمایش ویدیویی، یکی از اعضای فنی OpenAI نشان داد که چگونه میتوان صدای یک کاربر را به صدای یک دانشمند دیوانه یا یک مربی آرام یوگا تبدیل کرد. این مدلهای جدید که بر اساس نسخه اولیه GPT-4o توسعه یافتهاند و عملکرد بهتری در زمینه تبدیل گفتار به متن ارائه میدهند، قابلیت استفاده در محیطهای پر سر و صدا و با لهجههای مختلف را دارند.
این مدلها قرار است جایگزین مدل Whisper شود و نرخ خطای آنها در شناخت کلمات بسیار پایینتر است. علیرغم اینکه هنوز نمیتوانند سخنرانان مختلف را از یکدیگر تشخیص دهند، اما توانایی حذف نویز و تشخیص فعالیت صوتی را دارند که دقت تبدیل گفتار را افزایش میدهد.
OpenAI همچنین با برگزاری یک رقابت عمومی، از کاربران میخواهد از سایت آزمایشی آنها استفاده کرده و بهترین نمونههای خلاقانه را با هشتگ @openAI در شبکه اجتماعی X بهاشتراک بگذارند. برنده یک رادیوی سفارشی از شرکت Teenage Engineering با لوگوی OpenAI دریافت خواهد کرد.
مدلهای جدید OpenAI با قیمتهای زیر از طریق API در دسترس هستند:
- gpt-4o-transcribe: 6 دلار برای هر یک میلیون توکن ورودی صوتی
- gpt-4o-mini-transcribe: 3 دلار برای هر یک میلیون توکن ورودی صوتی
- gpt-4o-mini-tts: 0.60 دلار برای هر یک میلیون توکن ورودی متنی و 12 دلار برای هر یک میلیون توکن خروجی صوتی
این مدلها در شرایطی عرضه شدهاند که رقابت در بخش تبدیل گفتار و صوتی هوش مصنوعی فشردهتر از همیشه است، بهطوری که شرکتهایی مثل ElevenLabs و Hume AI مدلهای جدیدی را ارائه کردهاند.
برخی از شرکتها نظیر EliseAI و Decagon از موفقیتهای قابل توجهی پس از ادغام این مدلهای صوتی در سیستمهای خود خبر دادهاند. این شرکتها بهبودهایی نظیر تعاملات احساسی طبیعیتر و افزایش دقت در شناخت گفتار را تجربه کردهاند که به افزایش رضایت مشتریان و بهبود نرخ حل مشکلات در تماسهای صوتی منجر شده است.
با وجود مزایای فراوان این مدلها، برخی از واکنشها نسبت به عرضه جدید OpenAI گرم نبوده است. بنیانگذار نرمافزار تحلیل اپ Dawn AI اظهار داشته که اگرچه مدلها امیدبخش هستند، اما به نظر میرسد OpenAI از تمرکز خود بر تعاملات همزمان و با تأخیر کم در ChatGPT فاصله گرفته است.
در مجموع، OpenAI همچنان به بهروزرسانی مدلهای صوتی خود ادامه میدهد و به دنبال فرصتهای جدید برای قابلیتهای سفارشیشده صوتی است. علاوه بر صوت، این شرکت در حال سرمایهگذاری در هوش مصنوعی چندوجهی، شامل ویدئو، برای ایجاد تجربههای تعاملی بیشتر است.