مقدمهای بر تحول جدی در هوش مصنوعی گفتاری: معرفی Voxtral توسط Mistral
با پیشرفت مستمر سیستمهای هوش مصنوعی، ارتباطات گفتاری به سرعت در حال تبدیل شدن به روش پیشفرض تعامل انسان با ماشینهاست. استارتاپ فرانسوی Mistral با معرفی مدل صوتی جدید خود، به نام Voxtral، به عرصه رقابت در زمینه هوش گفتاری پیوسته است. این شرکت به دنبال چالش کشیدن سیستمهای تجاری بسته با ارائه گزینههای منبع باز و کارآمد میباشد.
Voxtral: نخستین مدل صوتی منبع باز برای کسب و کارها
در روز سهشنبه، Mistral از عرضه Voxtral، نخستین خانواده مدلهای صوتی خود با هدف کاربردهای تجاری خبر داد. به بیان این شرکت، Voxtral به عنوان نخستین مدل منبع باز عرضه شده است که میتواند «هوش گفتاری واقعاً قابل استفاده در تولید» را به ارمغان بیاورد. این بدان معناست که توسعهدهندگان دیگر نیازی به انتخاب بین یک سیستم ارزان قیمت، اما نامناسب که قادر به درک واقعی گفتار نیست و گزینهای عملکردی، اما بسته که هزینههای بیشتری را بر دوش آنها میگذارد، ندارند.
یک گزینه اقتصادی برای کسب و کارها
برای کسب و کارها، Voxtral یک جایگزین مقرونبهصرفه ارائه میدهد که به گفته Mistral، «به کمتر از نصف قیمت» راهحلهای مشابه ارائه میشود. این مدل قادر است تا ۳۰ دقیقه از محتوای صوتی را ترنسکرایب کند و به واسطه زیرساخت LLM خود، یعنی Mistral Small 3.1، توانایی درک محتوای صوتی تا ۴۰ دقیقه را داراست. کاربران میتوانند پرسشهای خود را مطرح کنند، خلاصهسازی کنند یا دستورات صوتی را به اقداماتی واقعی مانند تماس با APIها یا اجرای توابع تبدیل نمایند.
توانمندیهای چندزبانه
Voxtral همچنین دارای قابلیتهای چندزبانه است و میتواند زبانهای مختلفی از جمله انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی را ترنسکرایب و درک کند. Mistral دو نوع از «مدلهای درک گفتار» خود را ارائه میدهد. نوع اول، Voxtral Small، با ۲۴ میلیارد پارامتر برای استقرار در مقیاس تولید طراحی شده است و با مدلهایی نظیر ElevenLabs Scribe، GPT-4o-mini و Gemini 2.5 Flash رقابت میکند. نوع دوم، Voxtral Mini، با ۳ میلیارد پارامتر مناسب برای استقرارهای محلی و جغرافیایی است. همچنین، نسخهای فوق ارزان و سریع از مدل ۳B تحت عنوان Voxtral Mini Transcribe برای کاربردهای صرف ترنسکرایب ارائه شده است که وعده میدهد از OpenAI Whisper با هزینهای کمتر از نصف قیمت آن پیشی بگیرد.
آغاز تست و استفاه
کاربران میتوانند با دانلود API از Hugging Face یا آزمایش مدلها در چتبات Mistral به نام Le Chat، Voxtral را به صورت رایگان تست کنند. هزینههای ادغام API در برنامهها از ۰.۰۰۱ دلار به ازای هر دقیقه آغاز میشود. این عرضه یک ماه پس از اعلام Mistral مبنی بر معرفی Magistral، نخستین خانواده مدلهای استدلالی که مشکلات را بهصورت مرحلهای بررسی میکنند، صورت میگیرد.
Mistral به عنوان یکی از برترین شرکتهای هوش مصنوعی در اروپا، به خاطر ترویج مدلهای منبع باز مشهور است و گزارشها حاکی از آن است که این شرکت در حال مذاکره برای جذب تا یک میلیارد دلار سرمایه از سرمایهگذاران معتبر مانند صندوق MGX ابوظبی است.