عنوان: انتشار MolmoAct 7B توسط مؤسسه Allen AI؛ گامی جدید در هوش مصنوعی فیزیکی و استدلال سه‌بعدی برای ربات‌ها

خلاصه خبر: مؤسسه پژوهشی Allen Institute for AI (AI2) مدل متن‌باز MolmoAct 7B را منتشر کرد — یک مدل پایه برای هوش مصنوعی فیزیکی که با «استدلال در فضای سه‌بعدی» به ربات‌ها امکان درک بهتر محیط و برنامه‌ریزی حرکت می‌دهد. مدل تحت مجوز Apache 2.0 و مجموعه داده‌های آموزشی آن تحت CC BY-4.0 منتشر شده‌اند.

هوش مصنوعی فیزیکی و جهش به سمت استدلال سه‌بعدی
هوش مصنوعی فیزیکی (Physical AI) حوزه‌ای است که در آن مدل‌های پایه و رباتیک ترکیب می‌شوند تا ماشین‌ها نه تنها ببینند، بلکه درباره ساختار فضایی و نحوه تعامل با آن «بیاندیشند». MolmoAct 7B که بر پایه پروژه متن‌باز Molmo ساخته شده، به‌عنوان یک Action Reasoning Model معرفی می‌شود؛ یعنی مدلی که می‌تواند درباره اعمال در یک فضای سه‌بعدی استدلال کند و پس از برنامه‌ریزی، اقدام مناسب را تولید کند.

چه چیزی MolmoAct را متفاوت می‌کند؟
– استدلال در فضای سه‌بعدی: برخلاف مدل‌های رایج vision-language-action (VLA) که عمدتاً به پردازش تصویر و زبان دو‌بعدی محدودند، MolmoAct می‌تواند ساختار هندسی محیط را رمزگذاری و فاصله بین اشیاء را برآورد کند.
– توکن‌های ادراکی فضایی: MolmoAct از توکن‌هایی بهره می‌برد که با استفاده از روش‌هایی مانند vector-quantized variational autoencoder (VQ-VAE) از ویدیو یا داده‌های حسی استخراج می‌شوند. این توکن‌ها متن نیستند، بلکه نشان‌دهنده ویژگی‌های فضایی و هندسی صحنه‌اند که به مدل امکان می‌دهد مسیرها و نقاط راهنمای تصویری (image-space waypoints) را پیش‌بینی کند.
– تبدیل به عمل: پس از برآورد هندسی، مدل توالی‌ای از نقاط مسیر را تولید کرده و سپس خروجی‌های کنترلی مانند جابجایی بازو یا امتداد دادن را پیشنهاد می‌دهد.

کاربردها و مزایا
– محیط‌های خانگی: AI2 تاکید کرده که چالش‌های محیط‌های خانگی به‌خاطر ناهمگونی و تغییرپذیری بالا اهمیت دارد؛ MolmoAct می‌تواند برای ربات‌های خانگی در وظایفی مانند برداشتن اشیاء یا تعامل با محیط روزمره مفید باشد.
– قابل تعمیم به انواع بدن‌های رباتیک: پژوهشگران AI2 می‌گویند مدل با «تنها تنظیم کمینه» (minimal fine-tuning) قادر به تطبیق با تجسمات مختلف مانند بازوهای مکانیکی یا بدن‌های انسان‌نما است.
– کاربردهای صنعتی و تحقیقاتی: از جمع‌آوری داده تا رباتیک خدماتی و ربات‌های نگهدارنده، این مدل پایه‌ای مناسب برای توسعه و شخصی‌سازی فراهم می‌کند.

نتایج و مقایسه با رقبا
AI2 گزارش داده که MolmoAct 7B در بنچ‌مارک‌های داخلی نرخ موفقیت 72.1% را ثبت کرده و از مدل‌هایی از شرکت‌های بزرگی همچون Google، Microsoft و Nvidia پیشی گرفته است. با این حال، پژوهشگران مستقل هشدار می‌دهند که بنچ‌مارک‌ها هنوز قادر به پوشش کامل پیچیدگی‌های دنیای واقعی نیستند و آزمایش‌های میدانی گسترده‌تر لازم است.

دسترسی و مجوزها
– مدل MolmoAct 7B تحت مجوز Apache 2.0 منتشر شده است که امکان استفاده و توسعه تجاری و تحقیقاتی را میسر می‌سازد.
– مجموعه داده‌های آموزشی تحت پروانه CC BY-4.0 قرار گرفته‌اند که با ذکر منبع، بازتوزیع و انطباق داده‌ها را مجاز می‌کند. این شفافیت در داده‌ها نقطه قوت مهمی برای پژوهشگران دانشگاهی و تیم‌های توسعه‌دهنده است.

دیدگاه کارشناسان
تحلیل‌گران و اساتید رباتیک مدل AI2 را گامی مهم اما تدریجی در جهت درک سه‌بعدی واقعی می‌دانند. گرچه برخی از جنبه‌ها هنوز «کنترل‌شده» و ساده‌شده‌اند، اما انتشار متن‌باز MolmoAct و داده‌های همراه آن می‌تواند به شتاب‌گیری نوآوری و تسهیل ارزیابی‌های مستقلی که کیفیت عملکرد در محیط‌های پیچیده را آزمون می‌کند، کمک کند.

محدودیت‌ها و چالش‌ها
– انتقال به محیط‌های واقعی: مدل‌ها در آزمایشگاه عملکرد خوبی نشان می‌دهند، اما دنیای واقعی شامل تغییرات ناپایدار، نورپردازی متفاوت و سناریوهای غافلگیرکننده است که نیاز به ارزیابی و بهبود مداوم دارد.
– هزینهٔ محاسباتی و تأخیر استنتاج: اجرای مدل‌های پیچیده روی ربات‌های با منابع محدود نیازمند بهینه‌سازی و معماری‌های کارآمدتر است.
– ایمنی و اعتمادپذیری: برای به‌کارگیری در محیط‌های انسانی، تضمین ایمنی و قابل‌پیش‌بینی بودن رفتار ربات‌ها حیاتی است.

جمع‌بندی
انتشار MolmoAct 7B توسط AI2 یک گام مهم در مسیر ترکیب مدل‌های پایه با رباتیک است که تمرکز آن بر استدلال فضایی سه‌بعدی، توانایی‌های جدیدی برای ربات‌ها فراهم می‌آورد. متن‌باز بودن مدل و داده‌ها فرصت‌های قابل‌توجهی برای پژوهش، توسعه و ارزیابی مستقل ایجاد می‌کند؛ اما برای گذار از بنچ‌مارک‌های کنترل‌شده به کاربردهای صنعتی و خانگی پایدار نیاز به کارهای تکمیلی و آزمون‌های میدانی گسترده است. این رخداد نشان می‌دهد که چشم‌انداز هوش مصنوعی فیزیکی هر روز به مرحلهٔ کاربردی‌تر و عمومی‌تر نزدیک‌تر می‌شود.

دستیار هوشمند بینا ویرا

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا