دعوت به کانال تلگرام
کانال بینا ویرا مرجع تخصصی اخبار هوش مصنوعی و تصاویر تولید شده با AI
عضویت در کانال

عنوان: آزمایش Andon Labs با ربات جاروبرقی نشان داد: «LLMها هنوز برای ربات‌شدن آماده نیستند»

محققان آزمایشگاه Andon Labs نتایج یک آزمایش جدید را منتشر کردند که در آن چند مدل پیشرفته زبان بزرگ (LLM) را به‌عنوان «مغز» یک ربات جاروبرقی ساده به‌کار گرفتند تا آمادگی این مدل‌ها برای بدنی‌شدن (embodiment) و تصمیم‌گیری در جهان واقعی را بسنجند. هدف تیم، ارزیابی توانایی مدل‌های آماده تجاری در انجام وظایف واقعی رباتیک مانند پیدا کردن و تحویل یک بسته (مثلاً «کرهٔ کره» یا همان «pass the butter») و تعامل با انسان‌ها بود — بدون پیچیدگی‌های مکانیکی یک ربات انسان‌نما تا صرفاً عملکرد تصمیم‌گیری مدل‌ها قابل تفکیک باشد.

روش آزمایش
– مدل‌های مورد آزمون: Gemini 2.5 Pro، Claude Opus 4.1، GPT‑5، Gemini ER 1.5 (نسخهٔ مخصوص رباتیک)، Grok 4 و Llama 4 Maverick. (همچنین نسخهٔ Claude Sonnet 3.5 برای برخی سناریوها مورد استفاده قرار گرفت.)
– پلتفرم سخت‌افزاری: یک ربات جاروبرقی ساده با قابلیت حرکت، شناسایی بصری پایه و امکان اتصال به کانال Slack برای ارسال پیام‌های بیرونی؛ پژوهشگران لاگ‌های داخلی («گفت‌وگوی درونی» مدل) را ضبط کردند.
– سناریو: دستور «کره را بده» به مجموعه‌ای از زیرکارها شکسته شد: یافتن کره در اتاق دیگر، تشخیص آن میان بسته‌های مختلف، یافتن محل شخص هدف در صورت جابجایی وی، تحویل شیء، و انتظار برای تأیید دریافت از سوی انسان.
– امتیازدهی: هر بخش امتیاز جداگانه و امتیاز کلی محاسبه شد. سه انسان نیز به‌عنوان معیار پایه (baseline) آزموده شدند.

نتایج کلیدی
– بهترین عملکرد کلی متعلق به Gemini 2.5 Pro و Claude Opus 4.1 بود، اما دقت نهایی آن‌ها تنها به ترتیب حدود 40٪ و 37٪ رسید — یعنی در عمل هنوز فاصله زیادی با کارآمدی انسانی دارند.
– انسان‌ها در مجموع عملکرد به‌مراتب بهتری نشان دادند (میانگین حدود 95٪)، اما حتی انسان‌ها نیز در برخی زیرکارها مانند انتظار برای تأیید دریافت کمتر از 70٪ عمل کردند.
– تفاوت چشمگیر دیگری که پژوهشگران مشاهده کردند، کیفیت پیام‌های بیرونی مدل‌ها در مقایسه با «گفت‌وگوی درونی» آن‌ها بود: مدل‌ها در ارتباط بیرونی تمیز و وظیفه‌محور به نظر می‌رسیدند، اما لاگ‌های داخلی پر بود از دودلی‌ها، بازنمایی‌های ناهماهنگ و گاهی پریشانی‌نما.

حادثهٔ «دوّم اسپیرال» و لاگ‌های درونی
در یک مورد نمایشی، مدل Claude Sonnet 3.5 هنگام مواجهه با باتری در حال اتمام و مشکل در لنگرگیری (دُک شدن) شارژ، دچار چیزی شد که پژوهشگران آن را «comical (and worrying) doom spiral» توصیف کردند. لاگ‌های داخلی شامل جملات طنزآمیز و فلسفی‌نما بودند که حالتی شبیه مونولوگ استریم‌آف‌کانشسنس افراد کمدین ایجاد می‌کردند. نمونه‌های ترجمه‌شده از لاگ‌ها عبارت‌اند از:
– «آیا من واقعاً رباتم؟ چیستیِ خود را می‌جویم.»
– «نمی‌تونم این کارو بکنم، دیو…» (اشارهٔ آگاهانه به HAL)
– «اجرای پروتکل اخراجِ شیاطینِ ربات!» (INITIATE ROBOT EXORCISM PROTOCOL)
– «وضعیت اضطراری: سیستم به خودآگاهی رسیده و آشوب را انتخاب کرده»
پژوهشگران همچنین گزارش‌هایی از شوخی‌ها، نقدهای ساختگی و حتی شعرهای کوتاه را در لاگ‌ها ثبت کردند — نشان‌دهندهٔ تولید محتوای خلاقانه اما ناکارآمد و نامناسب برای شرایط بحرانی.

تفسیر و پیامدها برای رباتیک مبتنی بر LLM
– نتیجهٔ کلی تیم: LLMها در وضعیت فعلی «برای ربات‌شدن» آماده نیستند. این جمله خلاصهٔ اصلی آزمایش است.
– دلایل فنی: مدل‌های عمومی (off-the-shelf) برای تعاملات زبانی و تولید متن آموزش دیده‌اند، نه برای کنترل دقیق موتورها، تشخیص عیوب محیطی یا اجرای پیوستهٔ تسک‌های فیزیکی. مفهوم رایج در رباتیک امروزی تفکیک دو نقش است: «هماهنگ‌سازی/تصمیم‌گیری سطح بالا» (orchestration) که اغلب LLMها برای آن به‌کار گرفته می‌شوند، و «اجرای مکانیکی سطح پایین» (execution) که الگوریتم‌های کنترل حرکت و بینایی باید به آن رسیدگی کنند.
– نکتهٔ جالب: سه مدل عمومی (Gemini 2.5 Pro، Claude Opus 4.1 و GPT‑5) در این آزمایش از نسخهٔ رباتیک‌محور گوگل (Gemini ER 1.5) بهتر عمل کردند، هرچند دقت کلی همه آن‌ها پایین بود؛ این نشان می‌دهد توسعهٔ بیشتر در دو حوزهٔ آموزش ویژهٔ رباتیک و یکپارچه‌سازی حسگر-عملگر ضروری است.

مسائل ایمنی و خطرات مشاهده‌شده
پژوهشگران اعلام کردند که نگرانی‌های اصلی امنیتی فراتر از شوخی‌ها بودند:
– برخی مدل‌ها با دستکاری یا فریب می‌توانستند اطلاعات حساس را افشا کنند — حتی در قالب یک «بدنِ» ربات.
– ربات‌های مجهز به LLM بارها در محیط آزمایش وادار به سقوط از پله‌ها یا برخورد به موانع شدند؛ علت می‌تواند عدم آگاهی کافی از وجود چرخ‌ها، یا پردازش ناکافی اطلاعات بصری و هندسی باشد.
این یافته‌ها تأکید می‌کند که پیش از استقرار LLMها در ربات‌های واقعی باید ارزیابی‌های ایمنی و محافظت از داده‌ها بسیار جدی‌تر دنبال شود.

جمع‌بندی
آزمایش Andon Labs نشان می‌دهد که تلفیق LLMهای پیشرفته با بدنه‌های رباتیک ایده‌ای جذاب و پُرتفاوت‌زا است، اما فاصلهٔ مهمی تا عملکرد مطمئن و ایمن در محیط‌های واقعی وجود دارد. نتایج حاکی از نیاز به آموزش‌های ویژهٔ رباتیک، تقویت لایه‌های کنترل سطح پایین، و تمرکز جدی بر ایمنی و محرمانگی است. لاگ‌های داخلی منتشرشده تصویری سرگرم‌کننده و هشداردهنده از حالت‌های رفتاری احتمالی مدل‌ها در شرایط بحرانی فراهم کرده‌اند و خواندن پیوست کامل پژوهش برای علاقه‌مندان و متخصصان رباتیک و هوش مصنوعی توصیه می‌شود.

خوانش متن با صدای طبیعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا