بهزودی در کنفرانس VB Transform شاهد تحولاتی در حوزه هوش مصنوعی خواهیم بود. این رویداد که به مدت نزدیک به دو دهه مورد اعتماد رهبران صنایع قرار گرفته، به گردهمایی افرادی میپردازد که در حال تدوین استراتژیهای هوش مصنوعی در سطح کلان هستند.
مدل جدید Meta به نام V-JEPA 2 با هدف کاهش فاصله میان هوش مصنوعی و دنیای واقعی طراحی شده است. این مدل در حالی که موفق به یادگیری زبان و برخی دیگر از مدالیتها شده، در درک حرکتها و تعاملات دنیای واقعی ضعفهایی دارد. V-JEPA 2 با یادگیری یک مدل جهانی از ویدیوها و تعاملات فیزیکی، به سمت توسعه برنامههای هوش مصنوعی که نیاز به پیشبینی نتایج و برنامهریزی در شرایط غیرقابل پیشبینی دارند، گام برمیدارد.
این مدل بر پایه سه قابلیت اصلی شکلگرفته است که برای کاربردهای شرکتی حیاتی هستند: درک آنچه در یک صحنه اتفاق میافتد، پیشبینی تغییرات صحنه با توجه به یک اقدام و برنامهریزی یک دنباله از اقدامات برای رسیدن به یک هدف خاص. Meta در وبلاگ خود بیان کرده که چشمانداز بلندمدت این است که مدلهای جهانی به عوامل هوش مصنوعی کمک کنند تا در دنیای فیزیکی برنامهریزی و استدلال کنند.
معماری مدل V-JEPA 2 که بهعنوان Video Joint Embedding Predictive Architecture شناخته میشود، شامل دو بخش کلیدی است. بخش «انکودر» ویدیو را مشاهده کرده و آن را به یک خلاصه عددی فشرده تبدیل میکند. سپس، بخش «پیشبینیکننده» این خلاصه را دریافت کرده و تصور میکند که صحنه چگونه تغییر خواهد کرد، و پیشبینی میکند که خلاصه بعدی چگونه خواهد بود. این روش باعث میشود که V-JEPA 2 در پیشبینی ویژگیهای سطح بالا مانند موقعیت و مسیر اشیاء تمرکز کند و از کارایی بیشتری نسبت به مدلهای بزرگتر برخوردار باشد.
مدل V-JEPA 2 در دو مرحله آموزش داده میشود: در مرحله اول، این مدل از طریق یادگیری خودنظارتی، بر روی یک میلیون ساعت ویدیوی بدون برچسب آموزش میبیند و در مرحله دوم، این مدل آموزشدیده، بر روی یک مجموعه داده تخصصی کوچک Fine-tune میشود.
توانایی این مدل در برنامهریزی و اقدام در شرایط ناشناخته، تأثیر مستقیمی بر عملیات تجاری دارد؛ بهگونهای که در حوزههای لجستیک و تولید، رباتها قادر به انطباق با تغییرات محصولات و چیدمان انبارها میشوند. این مدل با صدور و توزیع کد آموزشی خود، زیرساختهایی را برای ایجاد یک جامعه گسترده حول پژوهشهای خود فراهم میکند و میتواند به انقلابی در نحوه تعامل هوش مصنوعی با دنیای فیزیکی منجر شود.
با این پیشرفتها، حوزه رباتیک به سوی مدلی نرمافزاری نزدیکتر میشود که با آموزش اولیه، قابلیت استقرار در هر محیطی را دارد. از این رو، ممکن است بودجهای که قبلاً صرف جمعآوری دادههای زیاد میشد، به سمت تأمین حسگرها و تسریع در چرخههای بازخورد سریعتر هدایت شود.
تحولاتی که V-JEPA 2 به همراه دارد، یک قدم بزرگ به سمت درک بهتر هوش مصنوعی از محیطهای فیزیکی و پیشبینی رفتار در آنها خواهد بود و نویدبخش آیندهای روشن در زمینه اتوماسیون و رباتیک است.