با پیشرفتهای اخیر در زمینه رباتیک، اکنون ساخت پروژههای پیچیده رباتیکی در خانه آسانتر از گذشته شده است. در هفته جاری، پلتفرم توسعه هوش مصنوعی Hugging Face از مدل هوش مصنوعی جدیدی برای رباتیک به نام SmolVLA رونمایی کرد. این مدل که بر روی مجموعه دادههای جامعهمحور و با مجوز مناسب آموزش دیده است، به ادعای Hugging Face، در مقایسه با مدلهای بزرگتر، در محیطهای مجازی و واقعی عملکرد بهتری از خود نشان میدهد.
به نوشته Hugging Face در یک پست وبلاگی، هدف SmolVLA تسهیل دسترسی به مدلهای بینایی-زبان-عمل (VLA) و تسریع تحقیق در زمینه ایجاد رباتهای عمومی است. SmolVLA نه تنها مدلی کمحجم و توانمند است، بلکه روشی برای آموزش و ارزیابی فناوریهای رباتیک عمومی نیز به شمار میآید. این مدل بخشی از تلاشهای سریعالسیر Hugging Face برای ایجاد یک اکوسیستم سختافزار و نرمافزار رباتیک با هزینه پایین است. سال گذشته، این شرکت مجموعهای از مدلها، مجموعه دادهها و ابزارهای متمرکز بر رباتیک به نام LeRobot را معرفی کرد.
به تازگی، Hugging Face شرکت Pollen Robotics، یک استارتاپ رباتیک مستقر در فرانسه، را خریداری کرده و چندین سیستم رباتیکی ارزانقیمت، از جمله رباتهای انساننما، را برای فروش عرضه کرده است. SmolVLA با ۴۵۰ میلیون پارامتر آموزشهای خود را بر اساس دادههای موجود در مجموعه دادههای جامعه LeRobot انجام داده است. پارامترها، که گاهی بهعنوان “وزنها” شناخته میشوند، اجزای داخلی یک مدل هستند که رفتار آن را هدایت میکنند.
Hugging Face ادعا میکند که SmolVLA اندازهای کوچک دارد و میتواند بر روی یک GPU مصرفکننده یا حتی یک MacBook اجرا شود و همچنین میتواند بر روی سختافزارهای “مقرونبهصرفه” آزمایش و پیادهسازی شود. جالب است بدانید که SmolVLA از یک “پشته استنتاج غیرهمزمان” پشتیبانی میکند که به ادعای Hugging Face، این امکان را فراهم میکند که پردازش اقدامات ربات از پردازش آنچه میبیند و میشنود جدا شود.
به گفته این شرکت، “[ب]ه خاطر این جدایی، رباتها میتوانند در محیطهای پرسرعت با سرعت بیشتری واکنش نشان دهند.” SmolVLA هماکنون از طریق Hugging Face برای دانلود در دسترس است. در یک نمونه قابل توجه، یکی از کاربران در شبکه اجتماعی X مدعی است که از این مدل برای کنترل یک بازوی رباتیکی شخص ثالث استفاده کرده است.
لازم به ذکر است که Hugging Face تنها بازیگر موجود در این عرصه جدید رباتیک باز نیست. شرکت Nvidia نیز مجموعهای از ابزارها برای رباتیک باز دارد و استارتاپ K-Scale Labs در حال توسعه اجزای آنچه که تحت عنوان “انساننماهای متنباز” میشناسد، است. سایر شرکتهای مطرح در این بخش شامل Dyna Robotics و Physical Intelligence پشتیبانیشده از سوی جف بزوس و RLWRLD هستند.