مدل متن به گفتار جدید «دیا» راهی بازار شد تا رقبایی چون ElevenLabs و OpenAI را به چالش بکشد

استارتاپ دو نفره‌ای به نام Nari Labs از مدل Dia رونمایی کرده است، که با ۱.۶ میلیارد پارامتر، توانایی تبدیل متن به گفتار (TTS) را داراست و به تولید مکالمات طبیعی از طریق ورودی‌های متنی می‌پردازد. یکی از خالقان این مدل ادعا می‌کند که عملکرد Dia فراتر از محصولات مشابهی است که توسط شرکت‌های بزرگ مانند ElevenLabs و Google ارائه شده است.

توبی کیم، یکی از بنیان‌گذاران Nari و Dia، در پست‌های خود در شبکه اجتماعی ایکس (X) اعلام کرد: “Dia در ویژگی‌های پادکست NotebookLM رقابت می‌کند و کیفیتی بالاتر از مدل‌های ElevenLabs Studio و Sesame ارائه می‌دهد.” او همچنین به این نکته اشاره کرد که این مدل با “بدون هیچ‌گونه سرمایه‌گذاری” ساخته شده است. کیم در ادامه توضیح داد که علاقه‌مندی آنها به ویژگی پادکست NotebookLM انگیزه ابتدایی آنها برای توسعه Dia بوده است و طی فرآیند، هریک از API‌های TTS موجود در بازار را آزمایش کردند، ولی هیچکدام نتوانسته‌اند صدایی شبیه به مکالمه انسانی تولید کنند.

وی همچنین به خدمات Google برای دسترسی به تراشه‌های پردازش تنسور (TPU) در ابر تحقیقاتی این شرکت اشاره کرد. اکنون کد و وزن‌های Dia برای دانلود و پیاده‌سازی محلی در دسترس است و کاربران می‌توانند از Hugging Face یا GitHub این مدل را دریافت کنند. Dia دارای ویژگی‌های پیچیده‌ای مانند تن صدا، نشانه‌گذاری گوینده و نشانه‌های صوتی غیرکلامی است که همگی از متن ساده استخراج می‌شوند.

کاربران می‌توانند با استفاده از نشانه‌هایی مانند [S1] و [S2]، نوبت‌های گوینده را علامت‌گذاری کنند و با استفاده از نشانه‌هایی مانند (می‌خندد)، (سرفه می‌کند) یا (گلو صاف می‌کند) به گفتار تولیدی عمق بیشتری ببخشند. این نشانه‌ها در حین تولید به‌طور صحیح توسط Dia تفسیر می‌شوند، ویژگی‌ای که در دیگر مدل‌های موجود به‌ندرت دیده می‌شود.

در حال حاضر، Dia تنها به زبان انگلیسی ارائه می‌شود و صدای هیچ گوینده خاصی را منعکس نمی‌کند و برای هر بار اجرا، صدای متفاوتی تولید می‌کند، مگر اینکه کاربران مقدار دانه تولید را ثابت کنند یا ورودی صوتی ارائه دهند.

علاوه بر این، Nari Labs کدهای نمونه و یک دمو مبتنی بر Gradio برای تسهیل در استفاده از Dia فراهم کرده است. این استارتاپ همچنین فایل‌های صوتی نمونه‌ای که از Dia تولید شده‌اند را در وب‌سایت نوتیون خود منتشر کرده است که مقایسه‌ای بین آن و رقبای دیگر در حوزه تبدیل متن به گفتار انجام می‌دهد.

کاربران و توسعه‌دهندگان می‌توانند به Dia از مخزن GitHub Nari Labs و صفحه مدل Hugging Face دسترسی پیدا کنند. به‌نوعی، در حالی که نسخه فعلی نیاز به GPU دارد، این استارتاپ برنامه‌هایی برای ارائه پشتیبانی از CPU و نسخه‌های کمی‌سازی برای بهبود دسترسی دارد.

با توجه به تنوع کاربرد و قابلیت‌های Dia، این مدل می‌تواند در حوزه‌های مختلفی از تولید محتوا تا تکنولوژی‌های کمکی و صداگذاری مصنوعی مورد استفاده قرار گیرد. Nari Labs همچنین در حال توسعه نسخه‌ای تجاری از Dia برای کاربران عادی است که به Remix یا اشتراک‌گذاری مکالمات تولید شده تمایل دارند.

این مدل تحت مجوز کامل متن باز Apache 2.0 منتشر شده است که امکان استفاده تجاری را فراهم می‌آورد، امری که به‌وضوح برای شرکت‌ها و توسعه‌دهندگان مستقل جذاب است. Nari Labs به وضوح استفاده از این مدل برای جعل هویت افراد، انتشار اطلاعات نادرست یا فعالیت‌های غیرقانونی را ممنوع کرده است و بر انجام آزمایش‌های مسئولانه تأکید دارد.

با تمرکز بر کیفیت بیانی، قابلیت تکرارپذیری و دسترسی آزاد، Dia یک صدای جدید و متمایز به مجموعه مدل‌های تولید گفتار اضافه کرده است.

خوانش متن با صدای طبیعی

مدل متن به گفتار جدید «دیا» راهی بازار شد تا رقبایی چون ElevenLabs و OpenAI را به چالش بکشد

دیدگاه‌ خود را بنویسید لغو پاسخ