دریم‌دوجو؛ سیستم جدید انویدیا برای آموزش ربات‌های انسان‌نما با مشاهده 44 هزار ساعت ویدئوی انسانی

انویدیا به‌همراه گروهی از پژوهشگران دانشگاه‌های UC Berkeley، استنفورد و University of Texas at Austin، سیستم هوش مصنوعی تازه‌ای به نام DreamDojo (دریم‌دوجو) را معرفی کرده‌اند که هدف آن آموزش ربات‌ها برای تعامل با جهان فیزیکی از طریق تماشای ده‌ها هزار ساعت ویدئوی انسانی است. این رویکرد می‌تواند به‌طور چشمگیری زمان و هزینه لازم برای تربیت نسل بعدی ربات‌های انسان‌نما را کاهش دهد و مقاومت آن‌ها در مواجهه با محیط‌های متنوع را افزایش دهد.

دیتاست بزرگ و بی‌سابقه: DreamDojo‑HV
هستهٔ دریم‌دوجو شامل یک دیتاست ویدیویی بزرگ به نام DreamDojo‑HV است که حاوی 44 هزار ساعت ویدئوی egocentric (دوربین از دید اول شخص انسان) است. طبق مستندات پروژه، این مجموعه نسبت به دیتاست‌های قبلی برای پیش‌آموزش مدل‌های جهان رباتی از لحاظ مدت زمان، تعداد مهارت‌ها و صحنه‌ها جهش عظیمی ایجاد کرده است: 15 برابر طولانی‌تر، 96 برابر تنوع مهارت‌ها و تا 2000 برابر تعداد صحنه‌ها در مقایسه با بزرگ‌ترین مجموعه پیشین.

روش دو مرحله‌ای: پیش‌آموزش انسان‌محور و پس‌آموزش مختص ربات
دریم‌دوجو از دو فاز روشن پیروی می‌کند. در فاز نخست، با پیش‌آموزش روی دیتاست انسانی و استفاده از مفهومی به نام «اعمال پنهان (latent actions)» دانش عمومی فیزیکی از رفتارهای انسانی کسب می‌شود. در مرحله دوم، مدل با «پس‌آموزش روی تجسم هدف (target embodiment)» و اعمال پیوستهٔ رباتی، برای سخت‌افزار ربات خاص تنظیم می‌شود. به‌عبارت دیگر، سیستم ابتدا فیزیک و منطق جهان واقعی را از مشاهدهٔ انسان‌ها می‌آموزد و سپس آن را برای بدن و امکانات ربات هدف‌گیرنده بومی‌سازی می‌کند.

دستاوردهای فنی و سرعت پردازش
یکی از پیشرفت‌های فنی مهم در پروژه، فرایند تقطیر (distillation) است که امکان تعامل زنده در زمان واقعی را فراهم می‌کند: بیش از 1 دقیقه تعامل پیوسته با نرخ حدود 10 فریم در ثانیه. این قابلیت در عمل کاربردهایی مانند تله‌اپریشن (کنترل از راه دور به‌صورت زنده) و برنامه‌ریزی بلادرنگ را ممکن می‌سازد.

آزمایش روی پلتفرم‌های رباتیک متعدد
تیم تحقیقاتی دریم‌دوجو عملکرد مدل را روی چند پلتفرم رباتی از جمله GR-1، G1، AgiBot و YAM نشان داده است. پژوهشگران گزارش می‌دهند که مدل توانسته «rollout»های شرطی بر اقدام را در طیف گسترده‌ای از محیط‌ها و تعاملات با اشیاء به‌صورت واقع‌گرایانه شبیه‌سازی کند؛ قابلیتی که برای ارزیابی سیاست‌های کنترلی و برنامه‌ریزی مبتنی بر مدل حیاتی است.

اهمیت برای صنعت رباتیک و کاربردهای عملی
برای شرکت‌هایی که در حال ارزیابی یا توسعه ربات‌های انسان‌نما هستند، دریم‌دوجو می‌تواند چند مزیت کلیدی داشته باشد:
– کاهش نیاز به جمع‌آوری انبوه داده‌های آزمایشی رباتی پرهزینه و زمان‌بر؛
– امکان ارزیابی سیاست‌ها و برنامه‌ریزی در شبیه‌ساز قبل از به‌کارگیری در دنیای واقعی؛
– افزایش توانایی تعمیم مدل به اشیاء و محیط‌های گوناگون، که یکی از بزرگ‌ترین چالش‌های انتقال از آزمایشگاه به محیط‌های عملیاتی است.

چشم‌انداز تجاری و موضع انویدیا
معرفی دریم‌دوجو در زمانی رخ می‌دهد که انویدیا بیش از پیش به توسعهٔ رباتیک و کاربردهای فیزیکی هوش مصنوعی علاقه‌مند شده است. جِنسِن هوانگ، مدیرعامل انویدیا، و سایر تحلیل‌گران صنعتی رشد سرمایه‌گذاری در زیرساخت‌های هوش مصنوعی و رباتیک را یک فرصت تاریخی می‌دانند. با وجود سرمایه‌گذاری‌های سنگین در بخش‌های مختلف اکوسیستم هوش مصنوعی و شتاب سرمایه‌گذاری استارتاپ‌های رباتیک (در سال‌های اخیر رکورد جذب سرمایه دیده شده است)، هنوز مشخص نیست که آیا دریم‌دوجو به سرعت به محصولات تجاری تبدیل خواهد شد یا خیر — اما به‌روشنی جهت‌گیری انویدیا را به سمت همگرایی تراشه‌ها و سیستم‌های رباتیک نشان می‌دهد.

دسترسی و شفافیت علمی
تیم تحقیقاتی (از جمله لینکسی «جیم» فان، جوئل جانگ، یوکه ژو و همکاران) اعلام کرده‌اند که کد پژوهش به‌صورت عمومی منتشر خواهد شد، هرچند زمان‌بندی دقیق انتشار اعلام نشده است. انتشار کد و دیتاست می‌تواند به تسریع تحقیقات دانشگاهی و صنعتی در حوزهٔ مدل‌های جهان رباتی کمک کند و امکان بازتولید و توسعهٔ سریع‌تر راهکارها را فراهم سازد.

نتیجه‌گیری
دریم‌دوجو با بهره‌گیری از 44 هزار ساعت ویدئوی انسانی و ساخت یک مدل جهان بزرگ مقیاس، گامی بزرگ در جهت آموزش ربات‌ها از طریق مشاهده برداشته است. این ابتکار می‌تواند هزینه‌ها و زمان توسعهٔ ربات‌های انسان‌نما را کاهش دهد و توان تعمیم‌پذیری آن‌ها را افزایش دهد؛ اما مسیر تبدیل این پژوهش به محصولات عملی و گسترده در محیط‌های واقعی همچنان چالش‌برانگیز باقی مانده است. با این حال، دریم‌دوجو نشان می‌دهد که ماشین‌ها می‌توانند از زندگی روزمرهٔ ما «یاد بگیرند» — و این یادگیری ممکن است مبنای نسل بعدی ربات‌های تطبیق‌پذیر باشد.

تجزیه و تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا