گروهی از دانشجویان کارشناسی، که تجربه گستردهای در زمینه هوش مصنوعی ندارند، اظهار کردهاند که توانستهاند مدلی از هوش مصنوعی را بهصورت عمومی منتشر کنند که قابلیت تولید کلیپهای صوتی به سبک پادکست مشابه مدل NotebookLM گوگل را دارد. بازار ابزارهای گفتار مصنوعی بسیار وسیع و در حال رشد است. شرکتهایی مانند ElevenLabs در این حوزه پیشتاز هستند، اما رقبای متعددی همانند PlayAI و Sesame نیز در حال ظهور هستند. سرمایهگذاران بر این باورند که این ابزارها پتانسیل عظیمی دارند.
طبق گزارش PitchBook، استارتاپهای فعال در زمینه فناوری صدای هوش مصنوعی در سال گذشته بیش از ۳۹۸ میلیون دلار تأمین مالی از سرمایهگذاران جذب کردهاند. توبی کیم، یکی از بنیانگذاران شرکت Nari Labs که گروه پشت مدل جدید است، اشاره کرده که او و همکارش تنها سه ماه پیش شروع به یادگیری درباره هوش مصنوعی گفتار کردهاند. الهام گرفته از NotebookLM، آنها قصد داشتند مدلی ایجاد کنند که کنترل بیشتری بر روی صداهای تولید شده و “آزادی در نگارش” ارائه دهد.
کیم اعلام کرده که آنها از برنامه TPU Research Cloud گوگل، که به محققان دسترسی رایگان به تراشههای AI TPU این شرکت را فراهم میکند، برای آموزش مدل Nari به نام “Dia” استفاده کردهاند. این مدل با ۱.۶ میلیارد پارامتر قادر است دیالوگها را از یک سناریو تولید کند و به کاربران این امکان را میدهد که لحن گویندگان را سفارشیسازی کرده و صداهای غیرکلامی ماننده سرفه، خنده و دیگر نشانههای غیرکلامی را اضافه کنند. پارامترها، متغیرهای درونی هستند که مدلها برای انجام پیشبینیها از آنها استفاده میکنند و معمولاً مدلهایی با پارامترهای بیشتر عملکرد بهتری دارند.
مدل Dia از طریق پلتفرم توسعه دهنده هوش مصنوعی Hugging Face و GitHub در دسترس است و میتواند بر روی بیشتر کامپیوترهای مدرن با حداقل ۱۰ گیگابایت VRAM اجرا شود. این مدل، در صورتی که با توصیفی از سبک هدفمندی استفاده نشود، صدای تصادفی تولید میکند، اما همچنین قابلیت کلون کردن صدای افراد را نیز دارد. در آزمایشهای کوتاه TechCrunch از طریق دمو وب Nari، Dia بهخوبی کار کرد و بدون هیچ مشکلی دو مکالمه دو طرفه درباره هر موضوعی تولید کرد. کیفیت صداها به نظر رقابتی با سایر ابزارهای موجود میرسد و قابلیت کلون صدای Dia از آسانترین نمونههایی است که این نویسنده امتحان کرده است.
با این حال، مانند بسیاری از تولیدکنندگان صدا، Dia در زمینه ایمنی حداقل حفاظتها را فراهم میکند. ایجاد اطلاعات نادرست یا ضبطهای تقلبی بهسادگی ممکن است. در صفحات پروژه Dia، Nari از سوءاستفاده از مدل برای جعل هویت، فریب یا مشارکت در کمپینهای غیرقانونی ممانعت کرده، اما این گروه اعلام کرده که “مسئولیتی” در قبال سوءاستفادهها ندارد. همچنین Nari اطلاعاتی در مورد دادههایی که برای آموزش Dia جمعآوری کرده است، منتشر نکرده است. احتمال وجود محتوای دارای حق تکثیر در آموزش Dia وجود دارد؛ یکی از نظردهندگان در Hacker News به این نکته اشاره کرده که یک نمونه از صدا به مجریهای پادکست “Planet Money” NPR شباهت دارد. آموزش مدلها با محتوای دارای حق تکثیر یک عمل رایج اما قانونی مشکوک است. برخی از شرکتهای هوش مصنوعی ادعا میکنند که استفاده منصفانه آنها را از مسئولیت معاف میکند، در حالی که دارندگان حق، بر این باورند که استفاده منصفانه شامل آموزش نمیشود.
به هر حال، کیم اعلام کرده که برنامه Nari، ایجاد یک پلتفرم صدای مصنوعی با جنبههای اجتماعی بر روی Dia و مدلهای بزرگتر در آینده است. Nari همچنین قصد دارد گزارشی فنی برای Dia منتشر کند و حمایت از زبانهای بیشتری به غیر از انگلیسی را گسترش دهد.