ویژگی‌های جدید Voxtral میسرال: فراتر از رونویسی با خلاصه‌سازی و عملکردهای فعال‌شده توسط صدا

مجموعه Mistral امروز از یک مدل صوتی متن‌باز رونمایی کرد که می‌تواند رقیب جدی مدل‌های صوتی مبتنی بر پرداخت مانند Eleven Labs و Hume AI باشد. این شرکت اعلام کرده است که این مدل به نام Voxtral، شکاف بین مدل‌های شناسایی گفتار اختصاصی و نسخه‌های متن‌باز با حفره‌های بیشتر را پر می‌کند. Voxtral تحت مجوز Apache 2.0 منتشر شده و در دو نسخه ۲۴ میلیارد پارامتر و ۳ میلیارد پارامتر در دسترس قرار دارد. مدل بزرگ‌تر برای برنامه‌های مقیاس‌پذیر و مدل کوچک‌تر برای استفاده‌های محلی و لبه طراحی شده است.

Mistral در یک پست وبلاگی اشاره کرده است: “صدا اولین رابط انسان‌ها بود – قبل از نوشتن یا تایپ. این امکان را برای ما فراهم کرد تا ایده‌ها را به اشتراک بگذاریم، کارها را هماهنگ کنیم و روابط انسانی را بسازیم. با پیشرفته‌تر شدن سیستم‌های دیجیتال، صدا به عنوان طبیعی‌ترین شکل تعامل انسان و کامپیوتر دوباره به عرصه برگشته است.” با این حال، سیستم‌های امروزی هنوز محدود هستند و به دلیل عدم قابلیت اطمینان و پیچیدگی زیاد برای استفاده در دنیای واقعی، مانع از ارائه خدمات کامل می‌شوند. پر کردن این شکاف به ابزارهایی با پذیرش استثنایی، درک عمیق و قابلیت‌های چندزبانه نیاز دارد.

Voxtral در API Mistral و یک نقطه پایانی فقط برای انتقال متن در وب‌سایتش در دسترس است. این مدل‌ها همچنین از طریق پلتفرم چت Mistral به نام Le Chat قابل دسترسی هستند.

در ادامه، Mistral خاطرنشان کرد که هوش مصنوعی صوتی به معنای انتخاب بین دو معامله بوده است. برخی مدل‌های شناسایی گفتار متن‌باز معمولاً درک معنایی محدودی دارند، در حالی که مدل‌های بسته با درک زبانی قوی هزینه بالایی دارند. Mistral اظهار داشت که “Voxtral دقت بی‌نظیری را با درک معنایی بومی در حالت متن‌باز ارائه می‌دهد که هزینه آن کمتر از نصف قیمت API‌های مشابه است.”

Voxtral می‌تواند تا ۳۰ دقیقه صدا را گوش دهد و آن را به متن تبدیل کند و همچنین تا ۴۰ دقیقه را با درک صوتی پردازش کند. این مدل قابلیت خلاصه‌سازی دارد که به شما امکان می‌دهد به سوالات مربوط به محتوای صوتی پاسخ داده و خلاصه‌هایی تولید کنید بدون اینکه نیاز به تغییر حالت داشته باشید. کاربران می‌توانند وظایف و فراخوان‌های API را بر اساس دستوران گفتاری فعال کنند.

Voxtral از نظر پشتیبانی از زبان‌های متعدد مثل انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، ایتالیایی و هلندی نیز به‌روز شده است. این شرکت ویژگی‌های جدیدی به Voxtral اضافه کرده که شامل استقرار خصوصی است تا سازمان‌ها بتوانند از این مدل در اکوسیستم‌های خود استفاده کنند.

همچنین، Mistral ویژگی‌های خاصی مانند تنظیم دقیق مخصوص دامنه و دسترسی اولویت‌دار به منابع مهندسی را برای مشتریانی که نیاز به کمک در یکپارچه‌سازی Voxtral در جریان‌های کاری خود دارند، فراهم کرده است.

امروزه هوش مصنوعی شناسایی گفتار در بسیاری از پلتفرم‌ها در دسترس است و کاربران می‌توانند با استفاده از ChatGPT صحبت کرده و دستورهای گفتاری را در قالب نوشتاری پردازش کنند. زنجیره‌های غذایی سریع مانند White Castle از SoundHound در خدمات درایو-ترو خود استفاده کرده‌اند و Eleven Labs به طور مداوم در حال بهبود پلتفرم چندرسانه‌ای خود است.

در آخر، Mistral اعلام کرد که Voxtral از طریق API آن با هزینه‌ای معادل ۰.۰۰۱ دلار در دقیقه قابل دسترسی خواهد بود و برای کاربران، این مدل گزینه‌ای جذاب به شمار می‌آید.

چت آنلاین با هوش مصنوعی

ویژگی‌های جدید Voxtral میسرال: فراتر از رونویسی با خلاصه‌سازی و عملکردهای فعال‌شده توسط صدا

دیدگاه‌ خود را بنویسید لغو پاسخ