ماتی ستانیژفسکی (Mati Staniszewski)، همبنیانگذار و مدیرعامل شرکت صوتی هوش مصنوعی ElevenLabs، در سخنرانی خود در کنفرانس TechCrunch Disrupt 2025 اعلام کرد که مدلهای صوتی هوش مصنوعی در بلندمدت به کالایی تبدیل خواهند شد؛ اظهارنظری چراغخاموش برای شرکتی که امروز روی ساخت این مدلها تمرکز دارد.
ستانیژفسکی توضیح داد که تیم پژوهشی ElevenLabs بخشی از چالشهای معماری مدلهای صوتی را حل کردهاند و این تمرکز فنی در یک تا دو سال آینده همچنان ادامه خواهد داشت. با این حال او معتقد است که با گذشت زمان تفاوتهای بین مدلها کاهش مییابد: «در بلندمدت تبدیل به کالایی خواهد شد — در دو سال آینده. حتی اگر تفاوتهایی باقی بماند — که در برخی صداها یا زبانها احتمالاً وجود خواهد داشت — بهطور کلی اختلافها کمتر خواهد شد.»
پرسش کلیدی این است که اگر مدلها بهتدریج کالایی میشوند، چرا شرکتهایی مانند ElevenLabs هنوز روی ساخت مدل سرمایهگذاری میکنند؟ پاسخ ستانیژفسکی این است که در کوتاهمدت، خودِ مدلها بزرگترین مزیت رقابتی و مهمترین گام تغییردهنده هستند. کیفیت صدا و طبیعیبودن تعاملها هنوز مسئلهای حلنشده است و تنها راهحل فعلی، ساخت و بهینهسازی مدلها توسط خود شرکتهاست. او افزود: «تنها راه حل این است که خود مدلها را بسازی؛ اما در بلندمدت دیگر بازیگران نیز این مشکلات را حل خواهند کرد.»
ستانیژفسکی همچنین اشاره کرد که برای کاربردهای قابلاعتماد و مقیاسپذیر احتمالاً از مدلهای مختلف برای موارد استفاده متفاوت بهره گرفته خواهد شد. او پیشبینی کرد که در سالهای پیشِ رو، گرایش به مدلهای چندرسانهای (مولتیمودال) یا ترکیبی افزایش یابد؛ مدلهایی که بهطور همزمان صوت، ویدئو و یا تعامل با مدلهای زبانی بزرگ (LLMs) را مدیریت میکنند. بهعنوان نمونه او به Veo 3 گوگل اشاره کرد و آن را مثالی از تواناییهای ترکیب مدلها بیان نمود.
از دیگر نکات سخنان ستانیژفسکی برنامه ElevenLabs برای ورود به همکاریهای مشارکتی و بهرهگیری از فناوری متنباز بود. هدف این شرکت ترکیب تخصص صوتی خود با تواناییهای سایر مدلها و بازیگران اکوسیستم است تا هم در بخش مدلسازی و هم در سطح محصول ارزشافزوده بلندمدت ایجاد کند. به گفته او، «همانطور که نرمافزار و سختافزار برای شرکتهایی مثل اپل معجزهآفرین بود، امروز محصول و هوش مصنوعی میتواند محرک خلق بهترین موارد استفاده باشد.»
پیام این تحول برای کسبوکارها و توسعهدهندگان واضح است: در حالی که دسترسی به مدلهای پایه ممکن است در آینده آسانتر و ارزانتر شود، تمایز واقعی از طریق یکپارچهسازی محصول، کیفیت تجربه صوتی و ترکیب مدلها در سناریوهای چندرسانهای حاصل خواهد شد. بنابراین سازمانها باید همزمان به ارزیابی مدلهای آماده، و هم به سرمایهگذاری در توسعه مدلهای اختصاصی و ادغام راهکارها فکر کنند تا در میان موج کالاییشدن، مزیت رقابتی حفظ شود.
در نهایت، اظهارات ستانیژفسکی نشاندهنده گذار طبیعی صنعت صوتی هوش مصنوعی است: از دورهای متمرکز بر نوآوری معماری مدلها به دورهای که نوآوری در تجربه کاربری، ترکیب مدلها و ساخت محصولات کاربردی تعیینکننده خواهد بود. برای فعالان این حوزه، فرصتهای جدیدی در ادغام صوت با ویدئو و مدلهای زبانی، و نیز در همکاریهای بینشرکتی و متنباز، در حال پدیدار شدن است.
