استارتاپ دو نفرهای به نام Nari Labs از مدل Dia رونمایی کرده است، که با ۱.۶ میلیارد پارامتر، توانایی تبدیل متن به گفتار (TTS) را داراست و به تولید مکالمات طبیعی از طریق ورودیهای متنی میپردازد. یکی از خالقان این مدل ادعا میکند که عملکرد Dia فراتر از محصولات مشابهی است که توسط شرکتهای بزرگ مانند ElevenLabs و Google ارائه شده است.
توبی کیم، یکی از بنیانگذاران Nari و Dia، در پستهای خود در شبکه اجتماعی ایکس (X) اعلام کرد: “Dia در ویژگیهای پادکست NotebookLM رقابت میکند و کیفیتی بالاتر از مدلهای ElevenLabs Studio و Sesame ارائه میدهد.” او همچنین به این نکته اشاره کرد که این مدل با “بدون هیچگونه سرمایهگذاری” ساخته شده است. کیم در ادامه توضیح داد که علاقهمندی آنها به ویژگی پادکست NotebookLM انگیزه ابتدایی آنها برای توسعه Dia بوده است و طی فرآیند، هریک از APIهای TTS موجود در بازار را آزمایش کردند، ولی هیچکدام نتوانستهاند صدایی شبیه به مکالمه انسانی تولید کنند.
وی همچنین به خدمات Google برای دسترسی به تراشههای پردازش تنسور (TPU) در ابر تحقیقاتی این شرکت اشاره کرد. اکنون کد و وزنهای Dia برای دانلود و پیادهسازی محلی در دسترس است و کاربران میتوانند از Hugging Face یا GitHub این مدل را دریافت کنند. Dia دارای ویژگیهای پیچیدهای مانند تن صدا، نشانهگذاری گوینده و نشانههای صوتی غیرکلامی است که همگی از متن ساده استخراج میشوند.
کاربران میتوانند با استفاده از نشانههایی مانند [S1] و [S2]، نوبتهای گوینده را علامتگذاری کنند و با استفاده از نشانههایی مانند (میخندد)، (سرفه میکند) یا (گلو صاف میکند) به گفتار تولیدی عمق بیشتری ببخشند. این نشانهها در حین تولید بهطور صحیح توسط Dia تفسیر میشوند، ویژگیای که در دیگر مدلهای موجود بهندرت دیده میشود.
در حال حاضر، Dia تنها به زبان انگلیسی ارائه میشود و صدای هیچ گوینده خاصی را منعکس نمیکند و برای هر بار اجرا، صدای متفاوتی تولید میکند، مگر اینکه کاربران مقدار دانه تولید را ثابت کنند یا ورودی صوتی ارائه دهند.
علاوه بر این، Nari Labs کدهای نمونه و یک دمو مبتنی بر Gradio برای تسهیل در استفاده از Dia فراهم کرده است. این استارتاپ همچنین فایلهای صوتی نمونهای که از Dia تولید شدهاند را در وبسایت نوتیون خود منتشر کرده است که مقایسهای بین آن و رقبای دیگر در حوزه تبدیل متن به گفتار انجام میدهد.
کاربران و توسعهدهندگان میتوانند به Dia از مخزن GitHub Nari Labs و صفحه مدل Hugging Face دسترسی پیدا کنند. بهنوعی، در حالی که نسخه فعلی نیاز به GPU دارد، این استارتاپ برنامههایی برای ارائه پشتیبانی از CPU و نسخههای کمیسازی برای بهبود دسترسی دارد.
با توجه به تنوع کاربرد و قابلیتهای Dia، این مدل میتواند در حوزههای مختلفی از تولید محتوا تا تکنولوژیهای کمکی و صداگذاری مصنوعی مورد استفاده قرار گیرد. Nari Labs همچنین در حال توسعه نسخهای تجاری از Dia برای کاربران عادی است که به Remix یا اشتراکگذاری مکالمات تولید شده تمایل دارند.
این مدل تحت مجوز کامل متن باز Apache 2.0 منتشر شده است که امکان استفاده تجاری را فراهم میآورد، امری که بهوضوح برای شرکتها و توسعهدهندگان مستقل جذاب است. Nari Labs به وضوح استفاده از این مدل برای جعل هویت افراد، انتشار اطلاعات نادرست یا فعالیتهای غیرقانونی را ممنوع کرده است و بر انجام آزمایشهای مسئولانه تأکید دارد.
با تمرکز بر کیفیت بیانی، قابلیت تکرارپذیری و دسترسی آزاد، Dia یک صدای جدید و متمایز به مجموعه مدلهای تولید گفتار اضافه کرده است.