دریمدوجو؛ سیستم جدید انویدیا برای آموزش رباتهای انساننما با مشاهده 44 هزار ساعت ویدئوی انسانی
انویدیا بههمراه گروهی از پژوهشگران دانشگاههای UC Berkeley، استنفورد و University of Texas at Austin، سیستم هوش مصنوعی تازهای به نام DreamDojo (دریمدوجو) را معرفی کردهاند که هدف آن آموزش رباتها برای تعامل با جهان فیزیکی از طریق تماشای دهها هزار ساعت ویدئوی انسانی است. این رویکرد میتواند بهطور چشمگیری زمان و هزینه لازم برای تربیت نسل بعدی رباتهای انساننما را کاهش دهد و مقاومت آنها در مواجهه با محیطهای متنوع را افزایش دهد.
دیتاست بزرگ و بیسابقه: DreamDojo‑HV
هستهٔ دریمدوجو شامل یک دیتاست ویدیویی بزرگ به نام DreamDojo‑HV است که حاوی 44 هزار ساعت ویدئوی egocentric (دوربین از دید اول شخص انسان) است. طبق مستندات پروژه، این مجموعه نسبت به دیتاستهای قبلی برای پیشآموزش مدلهای جهان رباتی از لحاظ مدت زمان، تعداد مهارتها و صحنهها جهش عظیمی ایجاد کرده است: 15 برابر طولانیتر، 96 برابر تنوع مهارتها و تا 2000 برابر تعداد صحنهها در مقایسه با بزرگترین مجموعه پیشین.
روش دو مرحلهای: پیشآموزش انسانمحور و پسآموزش مختص ربات
دریمدوجو از دو فاز روشن پیروی میکند. در فاز نخست، با پیشآموزش روی دیتاست انسانی و استفاده از مفهومی به نام «اعمال پنهان (latent actions)» دانش عمومی فیزیکی از رفتارهای انسانی کسب میشود. در مرحله دوم، مدل با «پسآموزش روی تجسم هدف (target embodiment)» و اعمال پیوستهٔ رباتی، برای سختافزار ربات خاص تنظیم میشود. بهعبارت دیگر، سیستم ابتدا فیزیک و منطق جهان واقعی را از مشاهدهٔ انسانها میآموزد و سپس آن را برای بدن و امکانات ربات هدفگیرنده بومیسازی میکند.
دستاوردهای فنی و سرعت پردازش
یکی از پیشرفتهای فنی مهم در پروژه، فرایند تقطیر (distillation) است که امکان تعامل زنده در زمان واقعی را فراهم میکند: بیش از 1 دقیقه تعامل پیوسته با نرخ حدود 10 فریم در ثانیه. این قابلیت در عمل کاربردهایی مانند تلهاپریشن (کنترل از راه دور بهصورت زنده) و برنامهریزی بلادرنگ را ممکن میسازد.
آزمایش روی پلتفرمهای رباتیک متعدد
تیم تحقیقاتی دریمدوجو عملکرد مدل را روی چند پلتفرم رباتی از جمله GR-1، G1، AgiBot و YAM نشان داده است. پژوهشگران گزارش میدهند که مدل توانسته «rollout»های شرطی بر اقدام را در طیف گستردهای از محیطها و تعاملات با اشیاء بهصورت واقعگرایانه شبیهسازی کند؛ قابلیتی که برای ارزیابی سیاستهای کنترلی و برنامهریزی مبتنی بر مدل حیاتی است.
اهمیت برای صنعت رباتیک و کاربردهای عملی
برای شرکتهایی که در حال ارزیابی یا توسعه رباتهای انساننما هستند، دریمدوجو میتواند چند مزیت کلیدی داشته باشد:
– کاهش نیاز به جمعآوری انبوه دادههای آزمایشی رباتی پرهزینه و زمانبر؛
– امکان ارزیابی سیاستها و برنامهریزی در شبیهساز قبل از بهکارگیری در دنیای واقعی؛
– افزایش توانایی تعمیم مدل به اشیاء و محیطهای گوناگون، که یکی از بزرگترین چالشهای انتقال از آزمایشگاه به محیطهای عملیاتی است.
چشمانداز تجاری و موضع انویدیا
معرفی دریمدوجو در زمانی رخ میدهد که انویدیا بیش از پیش به توسعهٔ رباتیک و کاربردهای فیزیکی هوش مصنوعی علاقهمند شده است. جِنسِن هوانگ، مدیرعامل انویدیا، و سایر تحلیلگران صنعتی رشد سرمایهگذاری در زیرساختهای هوش مصنوعی و رباتیک را یک فرصت تاریخی میدانند. با وجود سرمایهگذاریهای سنگین در بخشهای مختلف اکوسیستم هوش مصنوعی و شتاب سرمایهگذاری استارتاپهای رباتیک (در سالهای اخیر رکورد جذب سرمایه دیده شده است)، هنوز مشخص نیست که آیا دریمدوجو به سرعت به محصولات تجاری تبدیل خواهد شد یا خیر — اما بهروشنی جهتگیری انویدیا را به سمت همگرایی تراشهها و سیستمهای رباتیک نشان میدهد.
دسترسی و شفافیت علمی
تیم تحقیقاتی (از جمله لینکسی «جیم» فان، جوئل جانگ، یوکه ژو و همکاران) اعلام کردهاند که کد پژوهش بهصورت عمومی منتشر خواهد شد، هرچند زمانبندی دقیق انتشار اعلام نشده است. انتشار کد و دیتاست میتواند به تسریع تحقیقات دانشگاهی و صنعتی در حوزهٔ مدلهای جهان رباتی کمک کند و امکان بازتولید و توسعهٔ سریعتر راهکارها را فراهم سازد.
نتیجهگیری
دریمدوجو با بهرهگیری از 44 هزار ساعت ویدئوی انسانی و ساخت یک مدل جهان بزرگ مقیاس، گامی بزرگ در جهت آموزش رباتها از طریق مشاهده برداشته است. این ابتکار میتواند هزینهها و زمان توسعهٔ رباتهای انساننما را کاهش دهد و توان تعمیمپذیری آنها را افزایش دهد؛ اما مسیر تبدیل این پژوهش به محصولات عملی و گسترده در محیطهای واقعی همچنان چالشبرانگیز باقی مانده است. با این حال، دریمدوجو نشان میدهد که ماشینها میتوانند از زندگی روزمرهٔ ما «یاد بگیرند» — و این یادگیری ممکن است مبنای نسل بعدی رباتهای تطبیقپذیر باشد.
