مدیرعامل ElevenLabs: مدل‌های صوتی هوش مصنوعی به‌تدریج کالایی می‌شوند

ماتی ستانیژفسکی (Mati Staniszewski)، هم‌بنیان‌گذار و مدیرعامل شرکت صوتی هوش مصنوعی ElevenLabs، در سخنرانی خود در کنفرانس TechCrunch Disrupt 2025 اعلام کرد که مدل‌های صوتی هوش مصنوعی در بلندمدت به کالایی تبدیل خواهند شد؛ اظهارنظری چراغ‌خاموش برای شرکتی که امروز روی ساخت این مدل‌ها تمرکز دارد.

ستانیژفسکی توضیح داد که تیم پژوهشی ElevenLabs بخشی از چالش‌های معماری مدل‌های صوتی را حل کرده‌اند و این تمرکز فنی در یک تا دو سال آینده همچنان ادامه خواهد داشت. با این حال او معتقد است که با گذشت زمان تفاوت‌های بین مدل‌ها کاهش می‌یابد: «در بلندمدت تبدیل به کالایی خواهد شد — در دو سال آینده. حتی اگر تفاوت‌هایی باقی بماند — که در برخی صداها یا زبان‌ها احتمالاً وجود خواهد داشت — به‌طور کلی اختلاف‌ها کمتر خواهد شد.»

پرسش کلیدی این است که اگر مدل‌ها به‌تدریج کالایی می‌شوند، چرا شرکت‌هایی مانند ElevenLabs هنوز روی ساخت مدل سرمایه‌گذاری می‌کنند؟ پاسخ ستانیژفسکی این است که در کوتاه‌مدت، خودِ مدل‌ها بزرگ‌ترین مزیت رقابتی و مهم‌ترین گام تغییر‌دهنده هستند. کیفیت صدا و طبیعی‌بودن تعامل‌ها هنوز مسئله‌ای حل‌نشده است و تنها راه‌حل فعلی، ساخت و بهینه‌سازی مدل‌ها توسط خود شرکت‌هاست. او افزود: «تنها راه حل این است که خود مدل‌ها را بسازی؛ اما در بلندمدت دیگر بازیگران نیز این مشکلات را حل خواهند کرد.»

ستانیژفسکی همچنین اشاره کرد که برای کاربردهای قابل‌اعتماد و مقیاس‌پذیر احتمالاً از مدل‌های مختلف برای موارد استفاده متفاوت بهره گرفته خواهد شد. او پیش‌بینی کرد که در سال‌های پیشِ رو، گرایش به مدل‌های چندرسانه‌ای (مولتی‌مودال) یا ترکیبی افزایش یابد؛ مدل‌هایی که به‌طور همزمان صوت، ویدئو و یا تعامل با مدل‌های زبانی بزرگ (LLMs) را مدیریت می‌کنند. به‌عنوان نمونه او به Veo 3 گوگل اشاره کرد و آن را مثالی از توانایی‌های ترکیب مدل‌ها بیان نمود.

از دیگر نکات سخنان ستانیژفسکی برنامه ElevenLabs برای ورود به همکاری‌های مشارکتی و بهره‌گیری از فناوری متن‌باز بود. هدف این شرکت ترکیب تخصص صوتی خود با توانایی‌های سایر مدل‌ها و بازیگران اکوسیستم است تا هم در بخش مدل‌سازی و هم در سطح محصول ارزش‌افزوده بلندمدت ایجاد کند. به گفته او، «همان‌طور که نرم‌افزار و سخت‌افزار برای شرکت‌هایی مثل اپل معجزه‌آفرین بود، امروز محصول و هوش مصنوعی می‌تواند محرک خلق بهترین موارد استفاده باشد.»

پیام این تحول برای کسب‌وکارها و توسعه‌دهندگان واضح است: در حالی که دسترسی به مدل‌های پایه ممکن است در آینده آسان‌تر و ارزان‌تر شود، تمایز واقعی از طریق یکپارچه‌سازی محصول، کیفیت تجربه صوتی و ترکیب مدل‌ها در سناریوهای چندرسانه‌ای حاصل خواهد شد. بنابراین سازمان‌ها باید هم‌زمان به ارزیابی مدل‌های آماده، و هم به سرمایه‌گذاری در توسعه مدل‌های اختصاصی و ادغام راهکارها فکر کنند تا در میان موج کالایی‌شدن، مزیت رقابتی حفظ شود.

در نهایت، اظهارات ستانیژفسکی نشان‌دهنده گذار طبیعی صنعت صوتی هوش مصنوعی است: از دوره‌ای متمرکز بر نوآوری معماری مدل‌ها به دوره‌ای که نوآوری در تجربه کاربری، ترکیب مدل‌ها و ساخت محصولات کاربردی تعیین‌کننده خواهد بود. برای فعالان این حوزه، فرصت‌های جدیدی در ادغام صوت با ویدئو و مدل‌های زبانی، و نیز در همکاری‌های بین‌شرکتی و متن‌باز، در حال پدیدار شدن است.

تولید تصویر با هوش مصنوعی

مدیرعامل ElevenLabs: مدل‌های صوتی هوش مصنوعی به‌تدریج کالایی می‌شوند

دیدگاه‌ خود را بنویسید لغو پاسخ