در یک گفتگوی اخیر در پادکست “Possible”، که به‌طور مشترک توسط بنیان‌گذار LinkedIn، رید هافمن، میزبانی می‌شود، دمس هسابیس، مدیر عامل Google DeepMind، از برنامه‌های گوگل برای ترکیب مدل‌های هوش مصنوعی Gemini با مدل‌های تولید ویدیو Veo خبر داد. وی بیان کرد که هدف این اقدام افزایش درک مدل‌های Gemini از دنیای فیزیکی است. هسابیس توضیح داد: “ما همیشه مدل پایه Gemini را به‌گونه‌ای طراحی کرده‌ایم که از ابتدا چندرسانه‌ای باشد” و افزود: “دلیل این کار، تحقق رؤیای ما برای یک دستیار دیجیتال جهانی است؛ دستیار که واقعاً در دنیای واقعی به شما کمک کند.”

صنعت هوش مصنوعی به‌طور تدریجی به‌سوی مدل‌های “همه‌جانبه” پیش می‌رود — مدل‌هایی که قادر به درک و ترکیب انواع مختلف رسانه‌ها هستند. جدیدترین مدل‌های Gemini گوگل قادر به تولید صوت، تصویر و متن هستند، در حالی که مدل پیش‌فرض OpenAI در ChatGPT می‌تواند به‌طور بومی تصاویری را ایجاد کند که شامل آثار به سبک Studio Ghibli نیز می‌شود. همچنین، آمازون نیز اعلام کرده است که قصد دارد یک مدل “هر به هر” را در اواخر امسال راه‌اندازی کند.

این مدل‌های همه‌جانبه به حجم بالایی از داده‌های آموزشی نیاز دارند — از تصویر و ویدیو گرفته تا صوت و متن. هسابیس اشاره کرد که داده‌های ویدیویی Veo عمدتاً از یوتیوب، پلتفرمی که متعلق به گوگل است، تأمین می‌شود. وی بیان کرد: “با تماشای ویدیوهای یوتیوب — تعداد زیادی از ویدیوهای یوتیوب — [Veo 2] می‌تواند فیزیک جهان را درک کند.” گوگل پیشتر به TechCrunch گفته بود که مدل‌های آن‌ها ممکن است بر اساس توافق با سازندگان یوتیوب، بر روی برخی محتواهای یوتیوب آموزش دیده باشند. به گزارش‌ها، گوگل سال گذشته شرایط خدمات خود را به‌گونه‌ای گسترش داد تا بتواند از داده‌های بیشتری برای آموزش مدل‌های هوش مصنوعی خود بهره‌برداری کند.

چت با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا