به‌زودی در کنفرانس VB Transform شاهد تحولاتی در حوزه هوش مصنوعی خواهیم بود. این رویداد که به مدت نزدیک به دو دهه مورد اعتماد رهبران صنایع قرار گرفته، به گردهمایی افرادی می‌پردازد که در حال تدوین استراتژی‌های هوش مصنوعی در سطح کلان هستند.

مدل جدید Meta به نام V-JEPA 2 با هدف کاهش فاصله میان هوش مصنوعی و دنیای واقعی طراحی شده است. این مدل در حالی که موفق به یادگیری زبان و برخی دیگر از مدالیت‌ها شده، در درک حرکت‌ها و تعاملات دنیای واقعی ضعف‌هایی دارد. V-JEPA 2 با یادگیری یک مدل جهانی از ویدیوها و تعاملات فیزیکی، به سمت توسعه برنامه‌های هوش مصنوعی که نیاز به پیش‌بینی نتایج و برنامه‌ریزی در شرایط غیرقابل پیش‌بینی دارند، گام برمی‌دارد.

این مدل بر پایه سه قابلیت اصلی شکل‌گرفته است که برای کاربردهای شرکتی حیاتی هستند: درک آنچه در یک صحنه اتفاق می‌افتد، پیش‌بینی تغییرات صحنه با توجه به یک اقدام و برنامه‌ریزی یک دنباله از اقدامات برای رسیدن به یک هدف خاص. Meta در وبلاگ خود بیان کرده که چشم‌انداز بلندمدت این است که مدل‌های جهانی به عوامل هوش مصنوعی کمک کنند تا در دنیای فیزیکی برنامه‌ریزی و استدلال کنند.

معماری مدل V-JEPA 2 که به‌عنوان Video Joint Embedding Predictive Architecture شناخته می‌شود، شامل دو بخش کلیدی است. بخش «انکودر» ویدیو را مشاهده کرده و آن را به یک خلاصه عددی فشرده تبدیل می‌کند. سپس، بخش «پیش‌بینی‌کننده» این خلاصه را دریافت کرده و تصور می‌کند که صحنه چگونه تغییر خواهد کرد، و پیش‌بینی می‌کند که خلاصه بعدی چگونه خواهد بود. این روش باعث می‌شود که V-JEPA 2 در پیش‌بینی ویژگی‌های سطح بالا مانند موقعیت و مسیر اشیاء تمرکز کند و از کارایی بیشتری نسبت به مدل‌های بزرگ‌تر برخوردار باشد.

مدل V-JEPA 2 در دو مرحله آموزش داده می‌شود: در مرحله اول، این مدل از طریق یادگیری خودنظارتی، بر روی یک میلیون ساعت ویدیوی بدون برچسب آموزش می‌بیند و در مرحله دوم، این مدل آموزش‌دیده، بر روی یک مجموعه داده تخصصی کوچک Fine-tune می‌شود.

توانایی این مدل در برنامه‌ریزی و اقدام در شرایط ناشناخته، تأثیر مستقیمی بر عملیات تجاری دارد؛ به‌گونه‌ای که در حوزه‌های لجستیک و تولید، ربات‌ها قادر به انطباق با تغییرات محصولات و چیدمان انبارها می‌شوند. این مدل با صدور و توزیع کد آموزشی خود، زیرساخت‌هایی را برای ایجاد یک جامعه گسترده حول پژوهش‌های خود فراهم می‌کند و می‌تواند به انقلابی در نحوه تعامل هوش مصنوعی با دنیای فیزیکی منجر شود.

با این پیشرفت‌ها، حوزه رباتیک به سوی مدلی نرم‌افزاری نزدیک‌تر می‌شود که با آموزش اولیه، قابلیت استقرار در هر محیطی را دارد. از این رو، ممکن است بودجه‌ای که قبلاً صرف جمع‌آوری داده‌های زیاد می‌شد، به سمت تأمین حسگرها و تسریع در چرخه‌های بازخورد سریع‌تر هدایت شود.

تحولاتی که V-JEPA 2 به همراه دارد، یک قدم بزرگ به سمت درک بهتر هوش مصنوعی از محیط‌های فیزیکی و پیش‌بینی رفتار در آن‌ها خواهد بود و نویدبخش آینده‌ای روشن در زمینه اتوماسیون و رباتیک است.

تبدیل گفتار به نوشتار

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا