مجموعه Mistral امروز از یک مدل صوتی متنباز رونمایی کرد که میتواند رقیب جدی مدلهای صوتی مبتنی بر پرداخت مانند Eleven Labs و Hume AI باشد. این شرکت اعلام کرده است که این مدل به نام Voxtral، شکاف بین مدلهای شناسایی گفتار اختصاصی و نسخههای متنباز با حفرههای بیشتر را پر میکند. Voxtral تحت مجوز Apache 2.0 منتشر شده و در دو نسخه ۲۴ میلیارد پارامتر و ۳ میلیارد پارامتر در دسترس قرار دارد. مدل بزرگتر برای برنامههای مقیاسپذیر و مدل کوچکتر برای استفادههای محلی و لبه طراحی شده است.
Mistral در یک پست وبلاگی اشاره کرده است: “صدا اولین رابط انسانها بود – قبل از نوشتن یا تایپ. این امکان را برای ما فراهم کرد تا ایدهها را به اشتراک بگذاریم، کارها را هماهنگ کنیم و روابط انسانی را بسازیم. با پیشرفتهتر شدن سیستمهای دیجیتال، صدا به عنوان طبیعیترین شکل تعامل انسان و کامپیوتر دوباره به عرصه برگشته است.” با این حال، سیستمهای امروزی هنوز محدود هستند و به دلیل عدم قابلیت اطمینان و پیچیدگی زیاد برای استفاده در دنیای واقعی، مانع از ارائه خدمات کامل میشوند. پر کردن این شکاف به ابزارهایی با پذیرش استثنایی، درک عمیق و قابلیتهای چندزبانه نیاز دارد.
Voxtral در API Mistral و یک نقطه پایانی فقط برای انتقال متن در وبسایتش در دسترس است. این مدلها همچنین از طریق پلتفرم چت Mistral به نام Le Chat قابل دسترسی هستند.
در ادامه، Mistral خاطرنشان کرد که هوش مصنوعی صوتی به معنای انتخاب بین دو معامله بوده است. برخی مدلهای شناسایی گفتار متنباز معمولاً درک معنایی محدودی دارند، در حالی که مدلهای بسته با درک زبانی قوی هزینه بالایی دارند. Mistral اظهار داشت که “Voxtral دقت بینظیری را با درک معنایی بومی در حالت متنباز ارائه میدهد که هزینه آن کمتر از نصف قیمت APIهای مشابه است.”
Voxtral میتواند تا ۳۰ دقیقه صدا را گوش دهد و آن را به متن تبدیل کند و همچنین تا ۴۰ دقیقه را با درک صوتی پردازش کند. این مدل قابلیت خلاصهسازی دارد که به شما امکان میدهد به سوالات مربوط به محتوای صوتی پاسخ داده و خلاصههایی تولید کنید بدون اینکه نیاز به تغییر حالت داشته باشید. کاربران میتوانند وظایف و فراخوانهای API را بر اساس دستوران گفتاری فعال کنند.
Voxtral از نظر پشتیبانی از زبانهای متعدد مثل انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، ایتالیایی و هلندی نیز بهروز شده است. این شرکت ویژگیهای جدیدی به Voxtral اضافه کرده که شامل استقرار خصوصی است تا سازمانها بتوانند از این مدل در اکوسیستمهای خود استفاده کنند.
همچنین، Mistral ویژگیهای خاصی مانند تنظیم دقیق مخصوص دامنه و دسترسی اولویتدار به منابع مهندسی را برای مشتریانی که نیاز به کمک در یکپارچهسازی Voxtral در جریانهای کاری خود دارند، فراهم کرده است.
امروزه هوش مصنوعی شناسایی گفتار در بسیاری از پلتفرمها در دسترس است و کاربران میتوانند با استفاده از ChatGPT صحبت کرده و دستورهای گفتاری را در قالب نوشتاری پردازش کنند. زنجیرههای غذایی سریع مانند White Castle از SoundHound در خدمات درایو-ترو خود استفاده کردهاند و Eleven Labs به طور مداوم در حال بهبود پلتفرم چندرسانهای خود است.
در آخر، Mistral اعلام کرد که Voxtral از طریق API آن با هزینهای معادل ۰.۰۰۱ دلار در دقیقه قابل دسترسی خواهد بود و برای کاربران، این مدل گزینهای جذاب به شمار میآید.