همایش VB Transform که به عنوان یک رویداد معتبر برای رهبران صنایع شناخته میشود، به گردهمایی افرادی اختصاص دارد که در حال ساخت استراتژیهای واقعی هوش مصنوعی در سطح سازمانها هستند. این رویداد به بررسی چالشهای انیمیشن صدا در هوش مصنوعی گفتگوی کنونی میپردازد، زیرا تولید صداهایی که نه تنها شبیه انسانها بلکه متنوع و با کیفیت باشند، هنوز یک چالش بزرگ به شمار میرود.
استارتاپ Rime با ارائه مدل گفتار به متن Arcana، به این چالش پاسخ میدهد. این مدل میتواند به سرعت صداهای “نامحدود” جدید از جنسیتها، سنین، و زبانهای مختلف را بر اساس یک توصیف متنی ساده تولید کند. مطابق گزارشها، این مدل به افزایش 15 درصدی فروش برندهایی همچون Domino’s و Wingstop کمک کرده است. لیلی کلیفورد، مدیرعامل و همبنیانگذار Rime، اظهار داشت: “ایجاد یک مدل با کیفیت بالا که صدای واقعی انسان را تقلید کند یک موضوع است، اما تولید مدلهایی که میتوانند تنوع نامحدودی از صداها را بر اساس مشخصات جمعیتشناختی ایجاد کنند، موضوعی دیگر است.”
مدل گفتار چندرسانهای و خودرگرسیو Rime، با استفاده از گفتگوهای طبیعی با افراد واقعی آموزش دیده است و به کاربران این امکان را میدهد تا با وارد کردن یک توصیف متنی از صدای مورد نظر خود، ویژگیهای دموگرافی و زبانی آن را تعیین کنند. به عنوان مثال کاربران میتوانند درخواست صدای زنی 30 ساله از کالیفرنیا را داشته باشند یا صدای یک مرد استرالیایی را انتخاب کنند. بر اساس این سیستم هر بار صدای متفاوتی تولید میشود.
مدل TTS نسخه Mist v2 از Rime برای کاربردهای تجاری حیاتی و با حجم بالا طراحی شده و به شرکتها این امکان را میدهد که صداهای منحصر به فردی برای نیازهای خود ایجاد کنند. این سیستم به گونهای طراحی شده است که مکالمات طبیعی و پویا را بدون نیاز به نماینده انسانی امکانپذیر کند.
Rime همچنین هشت سخنران پرچمدار با ویژگیهای منحصر به فرد ارائه میدهد. این مدل توانایی تغییر زبان، زمزمه، طعنه زدن و حتی تمسخر را داراست و میتواند در سخنرانیها با استفاده از توکن
به طور کلی، مدل Rime به صدای تولیدی توکنهای صوتی را از طریق یک رویکرد کدکمحور تولید میکند که به گفته Rime این امر منجر به “تولید سریعتر از زمان واقعی” میشود. این شرکت همچنین به خاطر روش منحصر به فردی که برای جمعآوری دادههای خود اتخاذ کرده، مورد توجه قرار گرفته است. Rime با تأسیس استودیو ضبط خود در سنفرانسیسکو، چندین ماه بر روی جمعآوری مکالمات طبیعی و غیرسخنرانی کار کرده است.
در نهایت، Rime به دنبال این است که به مشتریانش امکان بیابد که بهترین صداها را برای کاربرد خود بیابند. این شرکت ابزار “سوارش شخصیسازی” را ایجاد کرده که به کاربران اجازه میدهد تا با صداهای مختلف تست A/B انجام دهند. به گفته کلیفورد، “هدف ما این است که چگونه یک برنامه ایجاد کنیم که به راحتی برای مشتریان ما امکان آزمایش عملکردی را فراهم کند.”
Rime در حال حاضر نزدیک به 100 میلیون تماس ماهانه را پشتیبانی میکند و در تلاش است تا در سالهای آتی بر روی خدمات داخلی بیشتر تمرکز کند تا از تأخیر کمتری برخوردار شود. به گفته کلیفورد، “دلیل اینکه شما هرگز نمیتوانید به سرعت لازم دست یابید، این است که این مدلها را در فضای ابری اجرا میکنید.”
Rime در حال حاضر در تلاش است تا به چالشهای زبانی دیگر نیز پاسخ دهد و به جلب اعتماد مشتریان بیشتری برای برنامههای کاربردی خود ادامه دهد.