انتشار Voxtral: نخستین مدل صوتی هوش مصنوعی متن‌باز شرکت Mistral

مقدمه‌ای بر تحول جدی در هوش مصنوعی گفتاری: معرفی Voxtral توسط Mistral

با پیشرفت مستمر سیستم‌های هوش مصنوعی، ارتباطات گفتاری به سرعت در حال تبدیل شدن به روش پیش‌فرض تعامل انسان با ماشین‌هاست. استارتاپ فرانسوی Mistral با معرفی مدل صوتی جدید خود، به نام Voxtral، به عرصه رقابت در زمینه هوش گفتاری پیوسته است. این شرکت به دنبال چالش‌ کشیدن سیستم‌های تجاری بسته با ارائه گزینه‌های منبع باز و کارآمد می‌باشد.

Voxtral: نخستین مدل صوتی منبع باز برای کسب و کارها

در روز سه‌شنبه، Mistral از عرضه Voxtral، نخستین خانواده مدل‌های صوتی خود با هدف کاربردهای تجاری خبر داد. به بیان این شرکت، Voxtral به عنوان نخستین مدل منبع باز عرضه شده است که می‌تواند «هوش گفتاری واقعاً قابل استفاده در تولید» را به ارمغان بیاورد. این بدان معناست که توسعه‌دهندگان دیگر نیازی به انتخاب بین یک سیستم ارزان قیمت، اما نامناسب که قادر به درک واقعی گفتار نیست و گزینه‌ای عملکردی، اما بسته که هزینه‌های بیشتری را بر دوش آنها می‌گذارد، ندارند.

یک گزینه اقتصادی برای کسب و کارها

برای کسب و کارها، Voxtral یک جایگزین مقرون‌به‌صرفه ارائه می‌دهد که به گفته Mistral، «به کمتر از نصف قیمت» راه‌حل‌های مشابه ارائه می‌شود. این مدل قادر است تا ۳۰ دقیقه از محتوای صوتی را ترنسکرایب کند و به واسطه زیرساخت LLM خود، یعنی Mistral Small 3.1، توانایی درک محتوای صوتی تا ۴۰ دقیقه را داراست. کاربران می‌توانند پرسش‌های خود را مطرح کنند، خلاصه‌سازی کنند یا دستورات صوتی را به اقداماتی واقعی مانند تماس با APIها یا اجرای توابع تبدیل نمایند.

توانمندی‌های چندزبانه

Voxtral همچنین دارای قابلیت‌های چندزبانه است و می‌تواند زبان‌های مختلفی از جمله انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی را ترنسکرایب و درک کند. Mistral دو نوع از «مدل‌های درک گفتار» خود را ارائه می‌دهد. نوع اول، Voxtral Small، با ۲۴ میلیارد پارامتر برای استقرار در مقیاس تولید طراحی شده است و با مدل‌هایی نظیر ElevenLabs Scribe، GPT-4o-mini و Gemini 2.5 Flash رقابت می‌کند. نوع دوم، Voxtral Mini، با ۳ میلیارد پارامتر مناسب برای استقرارهای محلی و جغرافیایی است. همچنین، نسخه‌ای فوق ارزان و سریع از مدل ۳B تحت عنوان Voxtral Mini Transcribe برای کاربردهای صرف ترنسکرایب ارائه شده است که وعده می‌دهد از OpenAI Whisper با هزینه‌ای کمتر از نصف قیمت آن پیشی بگیرد.

آغاز تست و استفاه

کاربران می‌توانند با دانلود API از Hugging Face یا آزمایش مدل‌ها در چت‌بات Mistral به نام Le Chat، Voxtral را به صورت رایگان تست کنند. هزینه‌های ادغام API در برنامه‌ها از ۰.۰۰۱ دلار به ازای هر دقیقه آغاز می‌شود. این عرضه یک ماه پس از اعلام Mistral مبنی بر معرفی Magistral، نخستین خانواده مدل‌های استدلالی که مشکلات را به‌صورت مرحله‌ای بررسی می‌کنند، صورت می‌گیرد.

Mistral به عنوان یکی از برترین شرکت‌های هوش مصنوعی در اروپا، به خاطر ترویج مدل‌های منبع باز مشهور است و گزارش‌ها حاکی از آن است که این شرکت در حال مذاکره برای جذب تا یک میلیارد دلار سرمایه از سرمایه‌گذاران معتبر مانند صندوق MGX ابوظبی است.

تبدیل متن‌های فارسی به صوت

انتشار Voxtral: نخستین مدل صوتی هوش مصنوعی متن‌باز شرکت Mistral

دیدگاه‌ خود را بنویسید لغو پاسخ