همایش VB Transform که به عنوان یک رویداد معتبر برای رهبران صنایع شناخته می‌شود، به گردهمایی افرادی اختصاص دارد که در حال ساخت استراتژی‌های واقعی هوش مصنوعی در سطح سازمان‌ها هستند. این رویداد به بررسی چالش‌های انیمیشن صدا در هوش مصنوعی گفتگوی کنونی می‌پردازد، زیرا تولید صداهایی که نه تنها شبیه انسان‌ها بلکه متنوع و با کیفیت باشند، هنوز یک چالش بزرگ به شمار می‌رود.

استارتاپ Rime با ارائه مدل گفتار به متن Arcana، به این چالش پاسخ می‌دهد. این مدل می‌تواند به سرعت صداهای “نامحدود” جدید از جنسیت‌ها، سنین، و زبان‌های مختلف را بر اساس یک توصیف متنی ساده تولید کند. مطابق گزارش‌ها، این مدل به افزایش 15 درصدی فروش برندهایی همچون Domino’s و Wingstop کمک کرده است. لیلی کلیفورد، مدیرعامل و هم‌بنیان‌گذار Rime، اظهار داشت: “ایجاد یک مدل با کیفیت بالا که صدای واقعی انسان را تقلید کند یک موضوع است، اما تولید مدل‌هایی که می‌توانند تنوع نامحدودی از صداها را بر اساس مشخصات جمعیت‌شناختی ایجاد کنند، موضوعی دیگر است.”

مدل گفتار چندرسانه‌ای و خودرگرسیو Rime، با استفاده از گفتگوهای طبیعی با افراد واقعی آموزش دیده است و به کاربران این امکان را می‌دهد تا با وارد کردن یک توصیف متنی از صدای مورد نظر خود، ویژگی‌های دموگرافی و زبانی آن را تعیین کنند. به عنوان مثال کاربران می‌توانند درخواست صدای زنی 30 ساله از کالیفرنیا را داشته باشند یا صدای یک مرد استرالیایی را انتخاب کنند. بر اساس این سیستم هر بار صدای متفاوتی تولید می‌شود.

مدل TTS نسخه Mist v2 از Rime برای کاربردهای تجاری حیاتی و با حجم بالا طراحی شده و به شرکت‌ها این امکان را می‌دهد که صداهای منحصر به فردی برای نیازهای خود ایجاد کنند. این سیستم به گونه‌ای طراحی شده است که مکالمات طبیعی و پویا را بدون نیاز به نماینده انسانی امکان‌پذیر کند.

Rime همچنین هشت سخنران پرچمدار با ویژگی‌های منحصر به فرد ارائه می‌دهد. این مدل توانایی تغییر زبان، زمزمه، طعنه زدن و حتی تمسخر را داراست و می‌تواند در سخنرانی‌ها با استفاده از توکن خنده اضافه کند. این قابلیت‌ها می‌تواند نتایج متنوع و واقعی را ارائه دهد، از “پچ‌پچ کوچک تا خنده بلند” و همچنین می‌تواند به درستی احساسات را از زمینه متن شناسایی و اجرا کند.

به طور کلی، مدل Rime به صدای تولیدی توکن‌های صوتی را از طریق یک رویکرد کدک‌محور تولید می‌کند که به گفته Rime این امر منجر به “تولید سریع‌تر از زمان واقعی” می‌شود. این شرکت همچنین به خاطر روش منحصر به فردی که برای جمع‌آوری داده‌های خود اتخاذ کرده، مورد توجه قرار گرفته است. Rime با تأسیس استودیو ضبط خود در سن‌فرانسیسکو، چندین ماه بر روی جمع‌آوری مکالمات طبیعی و غیرسخنرانی کار کرده است.

در نهایت، Rime به دنبال این است که به مشتریانش امکان بیابد که بهترین صداها را برای کاربرد خود بیابند. این شرکت ابزار “سوارش شخصی‌سازی” را ایجاد کرده که به کاربران اجازه می‌دهد تا با صداهای مختلف تست A/B انجام دهند. به گفته کلیفورد، “هدف ما این است که چگونه یک برنامه ایجاد کنیم که به راحتی برای مشتریان ما امکان آزمایش عملکردی را فراهم کند.”

Rime در حال حاضر نزدیک به 100 میلیون تماس ماهانه را پشتیبانی می‌کند و در تلاش است تا در سال‌های آتی بر روی خدمات داخلی بیشتر تمرکز کند تا از تأخیر کمتری برخوردار شود. به گفته کلیفورد، “دلیل اینکه شما هرگز نمی‌توانید به سرعت لازم دست یابید، این است که این مدل‌ها را در فضای ابری اجرا می‌کنید.”

Rime در حال حاضر در تلاش است تا به چالش‌های زبانی دیگر نیز پاسخ دهد و به جلب اعتماد مشتریان بیشتری برای برنامه‌های کاربردی خود ادامه دهد.

مشاور صوتی آنلاین

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا