عرضه مدل هوش مصنوعی متن‌برداری پاراکیت-TDT-0.6B-V2 به‌صورت متن باز توسط انویدیا در هاب هوجینگ فیس

شرکت انویدیا، به دلیل افزایش تقاضا برای واحدهای پردازش گرافیکی (GPU) که به‌طور عمده برای پردازش گرافیک در بازی‌های ویدیویی و همچنین آموزش مدل‌های بزرگ زبان و مدل‌های تفریق هوش مصنوعی استفاده می‌شود، به یکی از ارزشمندترین کمپانی‌های جهان تبدیل شده است. این شرکت تنها به تولید سخت‌افزار و نرم‌افزاری که آن را راه‌اندازی می‌کند محدود نمی‌شود، بلکه در عصر هوش مصنوعی مولد به طور مستمر مدل‌های هوش مصنوعی خود را منتشر می‌کند. جدیدترین مدل این شرکت، Parakeet-TDT-0.6B-v2، یک مدل تشخیص گفتار خودکار (ASR) است که می‌تواند 60 دقیقه محتوای صوتی را در یک ثانیه متن‌نگاری کند.

این مدل، نسل جدیدی از مدل Parakeet است که انویدیا در ژانویه 2024 معرفی کرد و نسخه‌ای به‌روز شده از آن در آوریل همان سال ارائه گردید. Parakeet-TDT-0.6B-v2، با نرخ خطای کلمه (WER) متوسط 6.05 درصد، در حال حاضر در صدر جدول رده‌بندی ASR در Hugging Face قرار دارد. برای مقایسه، این مدل به مدل‌های اختصاصی تبدیل گفتار به متن نظیر GPT-4 OpenAI نزدیک می‌شود که دارای WER برابر با 2.46 درصد است. این مدل تحت مجوز تجاری منفعت‌دار Creative Commons CC-BY-4.0 به‌صورت رایگان در دسترس محققان و توسعه‌دهندگان قرار دارد و فرصت‌های جذابی برای کسب‌وکارها و توسعه‌دهندگان مستقل فراهم می‌کند.

مدل Parakeet-TDT-0.6B-v2 دارای 600 میلیون پارامتر است و با ترکیب معماری‌های FastConformer encoder و TDT decoder عملکرد بسیار بالا و قابلیت پردازش صوت را داراست. این مدل می‌تواند یک ساعت محتوا را تنها در یک ثانیه تبدیل به متن کند، به شرطی که بر روی سخت‌افزارهای تسریع‌شده GPU انویدیا اجرا شود. این مدل برای توسعه‌دهندگان، محققان و تیم‌های صنعتی که به‌دنبال ساخت برنامه‌هایی نظیر خدمات تبدیل گفتار به متن، دستیارهای صوتی و پلتفرم‌های هوش مصنوعی محاوره‌ای هستند، طراحی شده است.

همچنین این مدل از قابلیت‌های علامت‌گذاری، حروف بزرگ‌نویسی و زمان‌بندی کلمات به‌طور دقیق پشتیبانی می‌کند، که آن را برای نیازهای متنوع تبدیل گفتار به متن کاملاً مناسب می‌سازد. توسعه‌دهندگان می‌توانند از ابزار نرم‌افزاری NeMo انویدیا استفاده کنند و این مدل را به‌صورت مستقیم یا برای کارهای خاص حوزه خود تنظیم کنند.

مدل Parakeet-TDT-0.6B-v2 بر روی یک مجموعه داده بزرگ و متنوع به نام Granary آموزش دیده است که شامل حدود 120,000 ساعت محتوای صوتی به زبان انگلیسی است. انویدیا قصد دارد این مجموعه داده را پس از ارائه در Interspeech 2025 به‌طور عمومی منتشر کند.

این مدل در برابر شرایط نویزی متفاوت عملکرد خوبی از خود نشان می‌دهد و حتی با فرمت‌های صوتی تلفنی نیز به خوبی عمل می‌کند. Parakeet-TDT-0.6B-v2 به‌خصوص برای محیط‌های GPU انویدیا بهینه‌سازی شده و از سخت‌افزارهایی نظیر A100، H100 و V100 پشتیبانی می‌کند.

انواع اطلاعات مفصل در مورد فرآیند آموزش، اجزای داده و رعایت مسائل حریم خصوصی در مستندات همراه این مدل موجود است. انتشار این مدل توجه مجامع یادگیری ماشین و نرم‌افزارهای متن‌باز را جلب کرده و به‌طور خاص توسط رسانه‌های اجتماعی به‌طور عمومی معرفی شده است.

برای توسعه‌دهندگانی که مایل به آزمایش این مدل هستند، دسترسی از طریق Hugging Face یا ابزار NeMo انویدیا فراهم شده است و دستورالعمل‌های نصب و اسکریپت‌های آزمایشی به‌راحتی در دسترس هستند.

تبدیل متن‌های فارسی به صوت

عرضه مدل هوش مصنوعی متن‌برداری پاراکیت-TDT-0.6B-V2 به‌صورت متن باز توسط انویدیا در هاب هوجینگ فیس

دیدگاه‌ خود را بنویسید لغو پاسخ