انویدیا از عرضه مدل هوش مصنوعی Cosmos-Transfer1 خبر میدهد؛ مدلی نوآورانه که به توسعهدهندگان اجازه میدهد شبیهسازیهای فوقالعاده واقعگرایانه برای آموزش رباتها و وسایل نقلیه خودران ایجاد کنند. این مدل که اکنون بر روی پلتفرم Hugging Face در دسترس است، به یک چالش همیشگی در توسعه هوش مصنوعی فیزیکی پاسخ میدهد: پل زدن بین محیطهای آموزشی شبیهسازیشده و کاربردهای دنیای واقعی.
محققان انویدیا در مقالهای که همزمان با انتشار این مدل ارائه شده، توضیح میدهند: «ما Cosmos-Transfer1 را معرفی میکنیم، مدلی برای تولید جهان شبیهسازی شده که میتواند شبیهسازیهای جهانی را بر اساس ورودیهای کنترلی مکانی از تنوعهای مختلف مثل جداسازی، عمق و حاشیه تولید کند.» این ویژگی، امکان تولید جهانهایی با کنترلپذیری بالا را فراهم میکند و در موارد استفادهای مانند انتقال شبیهسازی به واقعیت واقعی (Sim2Real) کاربرد دارد.
برخلاف مدلهای شبیهسازی قبلی، Cosmos-Transfer1 سیستمی کنترلی چندمنظوره و تطبیقی را معرفی میکند که به توسعهدهندگان اجازه میدهد ورودیهای بصری مختلف، مانند اطلاعات عمق یا مرزهای اشیاء، را در بخشهای مختلف صحنه بهطور متفاوت وزنگذاری کنند. این نوآوری باعث شده تا محیطهای تولید شده با جزئیات بیشتری کنترل شوند، که به نوبه خود واقعگرایی و کارایی آنها را بهبود میبخشد.
روشهای سنتی آموزش سیستمهای هوش مصنوعی فیزیکی یا نیازمند جمعآوری مقادیر زیادی دادههای دنیای واقعی هستند—فرایندی هزینهبر و زمانبر—یا از محیطهای شبیهسازی شده استفاده میکنند که اغلب فاقد پیچیدگی و تنوع دنیای واقعی هستند. Cosmos-Transfer1 این معضل را با امکان استفاده از ورودیهای چندمنظوره (مانند تصاویر تار، تشخیص لبه، نقشههای عمق و جداسازی) به منظور تولید شبیهسازیهای فوتوریالیستی که جنبههای کلیدی صحنه اصلی را حفظ میکند و در عین حال واریساهای طبیعی را اضافه میکند، حل میکند.
طبق توضیحات محققان: «در طراحی، طرح شرطی مکانی تطبیقی و قابل تنظیم است. این امکان وجود دارد که ورودیهای شرطی مختلف بهطور متفاوتی در مکانهای مکانی مختلف وزنگذاری شوند.» این قابلیت در حوزه رباتیک به شدت کاربردی است، جایی که توسعهدهنده ممکن است بخواهد کنترل دقیقی بر نحوه نمایش و حرکت یک بازوی رباتیک داشته باشد، در حالیکه آزادی بیشتری در ایجاد محیطهای پسزمینه متنوع دارد. برای وسایل نقلیه خودران نیز این مدل قادر است تا چیدمان جاده و الگوهای ترافیک را حفظ کند و در عین حال شرایط آبوهوایی، نورپردازی یا محیط شهری را تغییر دهد.
مینگیو لیو، یکی از مشارکتکنندگان اصلی پروژه، توضیح میدهد که چرا این فناوری برای کاربردهای صنعتی اهمیت دارد. او و همکارانش در مقالهای مینویسند: «مدلهای سیاستگذاری رفتار یک سیستم فیزیکی هوش مصنوعی را هدایت میکند، تضمین مینماید که سیستم با ایمنی و مطابق با اهداف خود عمل میکند. Cosmos-Transfer1 میتواند در مدلهای سیاستگذاری بهمنظور تولید اقدامات پسآموزش داده شود، که هزینه، زمان و نیاز به دادههای آموزش سیاستهای دستی را کاهش میدهد.»
فناوری مذکور قبلاً ارزش خود را در تست شبیهسازی رباتیک نشان داده است. انویدیا در تحقیقات خود دریافت که استفاده از Cosmos-Transfer1 برای تقویت دادههای شبیهسازی شده رباتیک، فوتوریالیسم را با افزودههای جزئیات بیشتر به صحنهها، سایهزنی پیچیده و نورپردازی طبیعی، بهبود داده و در عین حال دینامیک فیزیکی حرکت ربات را حفظ میکند. برای توسعه وسایل نقلیه خودران، این مدل به توسعهدهندگان اجازه میدهد تا به حداکثر استفاده از موارد لبهای دنیای واقعی برسند و کمک میکند که وسایل نقلیه یاد بگیرند تا شرایط نادر اما بحرانی را بدون نیاز به مواجهه با آنها در جادههای واقعی مدیریت کنند.
Cosmos-Transfer1 تنها یک جزء از پلتفرم وسیعتر Cosmos انویدیا است که شامل مدلهای بنیانی جهان (WFMs) طراحی شده ویژه توسعه هوش مصنوعی فیزیکی میشود. این پلتفرم شامل Cosmos-Predict1 برای تولید جهان عمومی و Cosmos-Reason1 برای استدلال عقل سلیم فیزیکی است. انویدیا در مخزن GitHub خود بیان میکند که «Nvidia Cosmos یک پلتفرم مدل بنیانی جهان طراحی شده برای توسعه دهندگان هوش مصنوعی فیزیکی است تا سیستمهای هوش مصنوعی فیزیکی خود را بهتر و سریعتر بسازند.»
پلتفرم مذکور شامل مدلهای پیشآموزشدیده تحت مجوز مدل باز انویدیا و اسکریپتهای آموزشی تحت مجوز Apache 2 میشود. این تصمیم موجب مضاعف سود آوری انویدیا خواهد شد زیرا بازار ابزارهای هوش مصنوعی که میتواند توسعه سیستمهای خودکار را تسریع نماید، به سرعت رو به رشد است، به خصوص وقتی که صنایع مختلف از جمله تولید و حمل و نقل به شدت در فناوریهای رباتیک و خودکار سرمایهگذاری میکنند.
انویدیا همچنین توانسته Cosmos-Transfer1 را بر روی جدیدترین سختافزار خود به صورت بلادرنگ اجرا کند. محققان در این رابطه اشاره دارند: «ما استراتژی مقیاسگذاری استنتاجی را برای دستیابی به تولید جهانی در زمان واقعی با یک Rack Nvidia GB200 NVL72، نشان دادیم.» با مقیاسگذاری از یک به 64 GPU، تیم به حدود 40 برابر سرعت بالاتر دست یافتند، به طوری که قادر به تولید 5 ثانیه فیلم با کیفیت بالا در زمان 4.2 ثانیه شدند—به نحوی که بتوان آن را به عملا به صورت بلادرنگ به حساب آورد. این کارآیی در مقیاس به یک چالش حیاتی دیگر صنایع پاسخ میدهد: سرعت شبیهسازی. شبیهسازی سریع و واقعگرایانه قابلیت تست و دورههای تکراری سریعتر را فراهم میکند و توسعه سیستمهای خودکار را سرعت میبخشد.
انتشار عمومی مدل Cosmos-Transfer1 و کدهای زیربنایی آن در GitHub توسط انویدیا، موانع را برای توسعهدهندگان در سراسر جهان کمتر میکند. این عرضه عمومی به تیمهای کوچکتر و محققان مستقل این امکان را میدهد تا به فناوری شبیهسازی دستیابی پیدا کنند که قبلاً به منابع قابل توجهی نیاز داشت. این حرکت به استراتژی گستردهتر انویدیا برای ساخت جوامع قوی توسعهدهندگان در اطراف محصولات سختافزاری و نرمافزاری خود میپردازد. با گذاشتن این ابزارها در دست کاربران بیشتر، شرکت نه تنها نفوذ خود را گسترش میدهد، بلکه احتمالاً پیشرفت در توسعه هوش مصنوعی فیزیکی را تسریع مینماید.
برای مهندسین رباتیک و وسایل نقلیه خودران، این ابزارهای جدید میتوانند چرخههای توسعه را با تمرینهای آموزشی مؤثرتر کوتاه نمایند. تاثیر عملی ممکن است ابتدا در مرحله تست احساس شود، جایی که توسعهدهندگان میتوانند سیستمها را قبل از اجرای واقعی در معرض طیف وسیعتری از سناریوها قرار دهند. اگرچه منبع باز بودن، فناوری را در دسترس قرار میدهد، ولی استفاده مؤثر از آن همچنان نیازمند تخصص و منابع محاسباتی است—یادآور اینکه در توسعه هوش مصنوعی، کد تنها آغاز داستان است.