در یک گفتگوی اخیر در پادکست “Possible”، که بهطور مشترک توسط بنیانگذار LinkedIn، رید هافمن، میزبانی میشود، دمس هسابیس، مدیر عامل Google DeepMind، از برنامههای گوگل برای ترکیب مدلهای هوش مصنوعی Gemini با مدلهای تولید ویدیو Veo خبر داد. وی بیان کرد که هدف این اقدام افزایش درک مدلهای Gemini از دنیای فیزیکی است. هسابیس توضیح داد: “ما همیشه مدل پایه Gemini را بهگونهای طراحی کردهایم که از ابتدا چندرسانهای باشد” و افزود: “دلیل این کار، تحقق رؤیای ما برای یک دستیار دیجیتال جهانی است؛ دستیار که واقعاً در دنیای واقعی به شما کمک کند.”
صنعت هوش مصنوعی بهطور تدریجی بهسوی مدلهای “همهجانبه” پیش میرود — مدلهایی که قادر به درک و ترکیب انواع مختلف رسانهها هستند. جدیدترین مدلهای Gemini گوگل قادر به تولید صوت، تصویر و متن هستند، در حالی که مدل پیشفرض OpenAI در ChatGPT میتواند بهطور بومی تصاویری را ایجاد کند که شامل آثار به سبک Studio Ghibli نیز میشود. همچنین، آمازون نیز اعلام کرده است که قصد دارد یک مدل “هر به هر” را در اواخر امسال راهاندازی کند.
این مدلهای همهجانبه به حجم بالایی از دادههای آموزشی نیاز دارند — از تصویر و ویدیو گرفته تا صوت و متن. هسابیس اشاره کرد که دادههای ویدیویی Veo عمدتاً از یوتیوب، پلتفرمی که متعلق به گوگل است، تأمین میشود. وی بیان کرد: “با تماشای ویدیوهای یوتیوب — تعداد زیادی از ویدیوهای یوتیوب — [Veo 2] میتواند فیزیک جهان را درک کند.” گوگل پیشتر به TechCrunch گفته بود که مدلهای آنها ممکن است بر اساس توافق با سازندگان یوتیوب، بر روی برخی محتواهای یوتیوب آموزش دیده باشند. به گزارشها، گوگل سال گذشته شرایط خدمات خود را بهگونهای گسترش داد تا بتواند از دادههای بیشتری برای آموزش مدلهای هوش مصنوعی خود بهرهبرداری کند.