مدل صوتی جدید OpenAI: اضافه کردن گفتار به متن در چند ثانیه

به‌تازگی شرکت OpenAI سه مدل صدای جدید معرفی کرده است: gpt-4o-transcribe، gpt-4o-mini-transcribe و gpt-4o-mini-tts که در ابتدا از طریق رابط برنامه‌نویسی (API) این شرکت در اختیار توسعه‌دهندگان نرم‌افزار قرار خواهد گرفت. این مدل‌ها همچنین در یک سایت آزمایشی به نام OpenAI.fm برای کاربران به‌منظور آزمایش محدود و سرگرمی در دسترس خواهند بود.

یکی از ویژگی‌های بارز مدل gpt-4o-mini-tts امکان سفارشی‌سازی صدا با استفاده از دستورات متنی است که شامل تغییر لهجه، تن و سایر ویژگی‌های صوتی می‌شود. این امر باعث می‌شود کاربران بتوانند صدای هوش مصنوعی خود را مطابق با خواست خود تنظیم کنند.

در یک نمایش ویدیویی، یکی از اعضای فنی OpenAI نشان داد که چگونه می‌توان صدای یک کاربر را به صدای یک دانشمند دیوانه یا یک مربی آرام یوگا تبدیل کرد. این مدل‌های جدید که بر اساس نسخه اولیه GPT-4o توسعه یافته‌اند و عملکرد بهتری در زمینه تبدیل گفتار به متن ارائه می‌دهند، قابلیت استفاده در محیط‌های پر سر و صدا و با لهجه‌های مختلف را دارند.

این مدل‌ها قرار است جایگزین مدل Whisper شود و نرخ خطای آن‌ها در شناخت کلمات بسیار پایین‌تر است. علی‌رغم اینکه هنوز نمی‌توانند سخنرانان مختلف را از یکدیگر تشخیص دهند، اما توانایی حذف نویز و تشخیص فعالیت صوتی را دارند که دقت تبدیل گفتار را افزایش می‌دهد.

OpenAI همچنین با برگزاری یک رقابت عمومی، از کاربران می‌خواهد از سایت آزمایشی آن‌ها استفاده کرده و بهترین نمونه‌های خلاقانه را با هشتگ @openAI در شبکه اجتماعی X به‌اشتراک بگذارند. برنده یک رادیوی سفارشی از شرکت Teenage Engineering با لوگوی OpenAI دریافت خواهد کرد.

مدل‌های جدید OpenAI با قیمت‌های زیر از طریق API در دسترس هستند:

gpt-4o-transcribe: 6 دلار برای هر یک میلیون توکن ورودی صوتی
gpt-4o-mini-transcribe: 3 دلار برای هر یک میلیون توکن ورودی صوتی
gpt-4o-mini-tts: 0.60 دلار برای هر یک میلیون توکن ورودی متنی و 12 دلار برای هر یک میلیون توکن خروجی صوتی

این مدل‌ها در شرایطی عرضه شده‌اند که رقابت در بخش تبدیل گفتار و صوتی هوش مصنوعی فشرده‌تر از همیشه است، به‌طوری که شرکت‌هایی مثل ElevenLabs و Hume AI مدل‌های جدیدی را ارائه کرده‌اند.

برخی از شرکت‌ها نظیر EliseAI و Decagon از موفقیت‌های قابل توجهی پس از ادغام این مدل‌های صوتی در سیستم‌های خود خبر داده‌اند. این شرکت‌ها بهبودهایی نظیر تعاملات احساسی طبیعی‌تر و افزایش دقت در شناخت گفتار را تجربه کرده‌اند که به افزایش رضایت مشتریان و بهبود نرخ حل مشکلات در تماس‌های صوتی منجر شده است.

با وجود مزایای فراوان این مدل‌ها، برخی از واکنش‌ها نسبت به عرضه جدید OpenAI گرم نبوده است. بنیان‌گذار نرم‌افزار تحلیل اپ Dawn AI اظهار داشته که اگرچه مدل‌ها امیدبخش هستند، اما به نظر می‌رسد OpenAI از تمرکز خود بر تعاملات همزمان و با تأخیر کم در ChatGPT فاصله گرفته است.

در مجموع، OpenAI همچنان به به‌روزرسانی مدل‌های صوتی خود ادامه می‌دهد و به دنبال فرصت‌های جدید برای قابلیت‌های سفارشی‌شده صوتی است. علاوه بر صوت، این شرکت در حال سرمایه‌گذاری در هوش مصنوعی چندوجهی، شامل ویدئو، برای ایجاد تجربه‌های تعاملی بیشتر است.

دستیار صوتی هوش مصنوعی

مدل صوتی جدید OpenAI: اضافه کردن گفتار به متن در چند ثانیه

دیدگاه‌ خود را بنویسید لغو پاسخ