شرکت انویدیا، به دلیل افزایش تقاضا برای واحدهای پردازش گرافیکی (GPU) که بهطور عمده برای پردازش گرافیک در بازیهای ویدیویی و همچنین آموزش مدلهای بزرگ زبان و مدلهای تفریق هوش مصنوعی استفاده میشود، به یکی از ارزشمندترین کمپانیهای جهان تبدیل شده است. این شرکت تنها به تولید سختافزار و نرمافزاری که آن را راهاندازی میکند محدود نمیشود، بلکه در عصر هوش مصنوعی مولد به طور مستمر مدلهای هوش مصنوعی خود را منتشر میکند. جدیدترین مدل این شرکت، Parakeet-TDT-0.6B-v2، یک مدل تشخیص گفتار خودکار (ASR) است که میتواند 60 دقیقه محتوای صوتی را در یک ثانیه متننگاری کند.
این مدل، نسل جدیدی از مدل Parakeet است که انویدیا در ژانویه 2024 معرفی کرد و نسخهای بهروز شده از آن در آوریل همان سال ارائه گردید. Parakeet-TDT-0.6B-v2، با نرخ خطای کلمه (WER) متوسط 6.05 درصد، در حال حاضر در صدر جدول ردهبندی ASR در Hugging Face قرار دارد. برای مقایسه، این مدل به مدلهای اختصاصی تبدیل گفتار به متن نظیر GPT-4 OpenAI نزدیک میشود که دارای WER برابر با 2.46 درصد است. این مدل تحت مجوز تجاری منفعتدار Creative Commons CC-BY-4.0 بهصورت رایگان در دسترس محققان و توسعهدهندگان قرار دارد و فرصتهای جذابی برای کسبوکارها و توسعهدهندگان مستقل فراهم میکند.
مدل Parakeet-TDT-0.6B-v2 دارای 600 میلیون پارامتر است و با ترکیب معماریهای FastConformer encoder و TDT decoder عملکرد بسیار بالا و قابلیت پردازش صوت را داراست. این مدل میتواند یک ساعت محتوا را تنها در یک ثانیه تبدیل به متن کند، به شرطی که بر روی سختافزارهای تسریعشده GPU انویدیا اجرا شود. این مدل برای توسعهدهندگان، محققان و تیمهای صنعتی که بهدنبال ساخت برنامههایی نظیر خدمات تبدیل گفتار به متن، دستیارهای صوتی و پلتفرمهای هوش مصنوعی محاورهای هستند، طراحی شده است.
همچنین این مدل از قابلیتهای علامتگذاری، حروف بزرگنویسی و زمانبندی کلمات بهطور دقیق پشتیبانی میکند، که آن را برای نیازهای متنوع تبدیل گفتار به متن کاملاً مناسب میسازد. توسعهدهندگان میتوانند از ابزار نرمافزاری NeMo انویدیا استفاده کنند و این مدل را بهصورت مستقیم یا برای کارهای خاص حوزه خود تنظیم کنند.
مدل Parakeet-TDT-0.6B-v2 بر روی یک مجموعه داده بزرگ و متنوع به نام Granary آموزش دیده است که شامل حدود 120,000 ساعت محتوای صوتی به زبان انگلیسی است. انویدیا قصد دارد این مجموعه داده را پس از ارائه در Interspeech 2025 بهطور عمومی منتشر کند.
این مدل در برابر شرایط نویزی متفاوت عملکرد خوبی از خود نشان میدهد و حتی با فرمتهای صوتی تلفنی نیز به خوبی عمل میکند. Parakeet-TDT-0.6B-v2 بهخصوص برای محیطهای GPU انویدیا بهینهسازی شده و از سختافزارهایی نظیر A100، H100 و V100 پشتیبانی میکند.
انواع اطلاعات مفصل در مورد فرآیند آموزش، اجزای داده و رعایت مسائل حریم خصوصی در مستندات همراه این مدل موجود است. انتشار این مدل توجه مجامع یادگیری ماشین و نرمافزارهای متنباز را جلب کرده و بهطور خاص توسط رسانههای اجتماعی بهطور عمومی معرفی شده است.
برای توسعهدهندگانی که مایل به آزمایش این مدل هستند، دسترسی از طریق Hugging Face یا ابزار NeMo انویدیا فراهم شده است و دستورالعملهای نصب و اسکریپتهای آزمایشی بهراحتی در دسترس هستند.