دو دانشجوی کارشناسی مدل سخنوری هوش مصنوعی برای رقابت با NotebookLM ساختند

گروهی از دانشجویان کارشناسی، که تجربه گسترده‌ای در زمینه هوش مصنوعی ندارند، اظهار کرده‌اند که توانسته‌اند مدلی از هوش مصنوعی را به‌صورت عمومی منتشر کنند که قابلیت تولید کلیپ‌های صوتی به سبک پادکست مشابه مدل NotebookLM گوگل را دارد. بازار ابزارهای گفتار مصنوعی بسیار وسیع و در حال رشد است. شرکت‌هایی مانند ElevenLabs در این حوزه پیشتاز هستند، اما رقبای متعددی همانند PlayAI و Sesame نیز در حال ظهور هستند. سرمایه‌گذاران بر این باورند که این ابزارها پتانسیل عظیمی دارند.

طبق گزارش PitchBook، استارتاپ‌های فعال در زمینه فناوری صدای هوش مصنوعی در سال گذشته بیش از ۳۹۸ میلیون دلار تأمین مالی از سرمایه‌گذاران جذب کرده‌اند. توبی کیم، یکی از بنیان‌گذاران شرکت Nari Labs که گروه پشت مدل جدید است، اشاره کرده که او و همکارش تنها سه ماه پیش شروع به یادگیری درباره هوش مصنوعی گفتار کرده‌اند. الهام گرفته از NotebookLM، آن‌ها قصد داشتند مدلی ایجاد کنند که کنترل بیشتری بر روی صداهای تولید شده و “آزادی در نگارش” ارائه دهد.

کیم اعلام کرده که آن‌ها از برنامه TPU Research Cloud گوگل، که به محققان دسترسی رایگان به تراشه‌های AI TPU این شرکت را فراهم می‌کند، برای آموزش مدل Nari به نام “Dia” استفاده کرده‌اند. این مدل با ۱.۶ میلیارد پارامتر قادر است دیالوگ‌ها را از یک سناریو تولید کند و به کاربران این امکان را می‌دهد که لحن گویندگان را سفارشی‌سازی کرده و صداهای غیرکلامی ماننده سرفه، خنده و دیگر نشانه‌های غیرکلامی را اضافه کنند. پارامترها، متغیرهای درونی هستند که مدل‌ها برای انجام پیش‌بینی‌ها از آن‌ها استفاده می‌کنند و معمولاً مدل‌هایی با پارامترهای بیشتر عملکرد بهتری دارند.

مدل Dia از طریق پلتفرم توسعه دهنده هوش مصنوعی Hugging Face و GitHub در دسترس است و می‌تواند بر روی بیشتر کامپیوترهای مدرن با حداقل ۱۰ گیگابایت VRAM اجرا شود. این مدل، در صورتی که با توصیفی از سبک هدفمندی استفاده نشود، صدای تصادفی تولید می‌کند، اما همچنین قابلیت کلون کردن صدای افراد را نیز دارد. در آزمایش‌های کوتاه TechCrunch از طریق دمو وب Nari، Dia به‌خوبی کار کرد و بدون هیچ مشکلی دو مکالمه دو طرفه درباره هر موضوعی تولید کرد. کیفیت صداها به نظر رقابتی با سایر ابزارهای موجود می‌رسد و قابلیت کلون صدای Dia از آسان‌ترین نمونه‌هایی است که این نویسنده امتحان کرده است.

با این حال، مانند بسیاری از تولیدکنندگان صدا، Dia در زمینه ایمنی حداقل حفاظت‌ها را فراهم می‌کند. ایجاد اطلاعات نادرست یا ضبط‌های تقلبی به‌سادگی ممکن است. در صفحات پروژه Dia، Nari از سوءاستفاده از مدل برای جعل هویت، فریب یا مشارکت در کمپین‌های غیرقانونی ممانعت کرده، اما این گروه اعلام کرده که “مسئولیتی” در قبال سوء‌استفاده‌ها ندارد. همچنین Nari اطلاعاتی در مورد داده‌هایی که برای آموزش Dia جمع‌آوری کرده است، منتشر نکرده است. احتمال وجود محتوای دارای حق تکثیر در آموزش Dia وجود دارد؛ یکی از نظردهندگان در Hacker News به این نکته اشاره کرده که یک نمونه از صدا به مجری‌های پادکست “Planet Money” NPR شباهت دارد. آموزش مدل‌ها با محتوای دارای حق تکثیر یک عمل رایج اما قانونی مشکوک است. برخی از شرکت‌های هوش مصنوعی ادعا می‌کنند که استفاده منصفانه آن‌ها را از مسئولیت معاف می‌کند، در حالی که دارندگان حق، بر این باورند که استفاده منصفانه شامل آموزش نمی‌شود.

به هر حال، کیم اعلام کرده که برنامه Nari، ایجاد یک پلتفرم صدای مصنوعی با جنبه‌های اجتماعی بر روی Dia و مدل‌های بزرگ‌تر در آینده است. Nari همچنین قصد دارد گزارشی فنی برای Dia منتشر کند و حمایت از زبان‌های بیشتری به غیر از انگلیسی را گسترش دهد.

تولید تصویر با هوش مصنوعی

دو دانشجوی کارشناسی مدل سخنوری هوش مصنوعی برای رقابت با NotebookLM ساختند

دیدگاه‌ خود را بنویسید لغو پاسخ