دستیابی به پیشرفتهای جدید در هوش مصنوعی با RAGEN: سیستم نوآورانه آموزش و ارزیابی عوامل هوش مصنوعی
طبق گزارشهای کارشناسان، سال ۲۰۲۵ بهعنوان سال عوامل هوش مصنوعی شناخته میشود — پیادهسازیهای هوش مصنوعی خاص وظیفه، که با استفاده از مدلهای متنباز و چندمدلی پیشرفتهای همچون مدلهای OpenAI، Anthropic، Google و DeepSeek ایجاد شدهاند. اما طبق نظرسنجی اخیر VentureBeat در شبکه اجتماعی X، تا به امروز اکثر عوامل هوش مصنوعی در مراحل آزمایشی باقی ماندهاند و هنوز به مرحله کاربردی نرسیدهاند. اما نویدهایی از پیشرفت در راه است: تیمی از دانشگاههای نورثوسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن با همکاری یک پژوهشگر سابق DeepSeek به نام زیهان وانگ، که در حال حاضر در حال لیسانس کامپیوتر در نورثوسترن است، سیستم جدیدی به نام RAGEN را معرفی کردهاند.
RAGEN، سیستم آموزشی و ارزیابی برای عوامل هوش مصنوعی است که به منظور افزایش قابلیت اعتماد و عملکرد آنها در استفادههای واقعی و در مقیاس تجاری طراحی شده است. بر خلاف وظایف ایستا مانند حل مسائل ریاضی یا تولید کد، RAGEN بر روی محیطهای چندحرکتی و تعاملی متمرکز است که در آن عوامل باید در مواجهه با عدم قطعیت، تطبیق، به یادآوری و استدلال کنند. این سیستم بر مبنای یک فریمورک یادگیری تقویتی سفارشی به نام StarPO (State-Thinking-Actions-Reward Policy Optimization) ساخته شده است و نشان میدهد که چگونه مدلهای زبان بزرگ میتوانند از طریق تجربه و نه صرفاً از طریق حافظه یاد بگیرند.
مدل StarPO در دو مرحله همزمان عمل میکند: مرحله خروجی که در آن مدل زبان بزرگ، دنبالههای کامل تعامل را که توسط استدلال هدایت میشود تولید میکند و مرحله بهروزرسانی که در آن مدل با استفاده از پاداشهای تجمعی نرمالشده بهینهسازی میشود. این ساختار، یک حلقه یادگیری پایدار و قابل تفسیر را نسبت به رویکردهای سنتی بهینهسازی سیاست فراهم میکند.
اعضای تیم برای تست فریمورک RAGEN از مدلهای Qwen شرکت علیبابا، از جمله Qwen 1.5 و Qwen 2.5 استفاده کردند که انتخاب آنها به دلیل قابلیتهای قوی پیروی از دستور و وزنهای باز آنها انجام شد. این انتخاب، قابلیت تکرار و مقایسههای پایهای منسجم را فراهم کرد.
وانگ در یک رشته عمومی در X، چالش اصلی را خلاصه میکند: “چرا آموزش یادگیری تقویتی شما همیشه در حال سقوط است؟” بر اساس گفتههای تیم، عوامل LLM در ابتدا پاسخهای نمادین و با استدلال خوبی تولید میکنند، اما همزمان با پیشرفت، سیستمهای یادگیری تقویتی تمایل به پاداشهای راهحلهای میانبر دارند، که به رفتارهای تکراری منجر میشود و عملکرد کلی را کاهش میدهد — الگویی که آن را “تله اکو” مینامند.
تیم RAGEN در تلاش است تا این رفتا را در محیطهای سهگانه نمادین با هدف به حداقل رساندن پیشفرضهای دنیای واقعی و تمرکز بر استراتژیهای تصمیمگیری که در طول آموزش توسعه یافتهاند، مطالعه کند. آنها در محیطی به نام “باندیت”، باید به صورت نمادین فکر کنند تا نتایج را پیشبینی کنند.
جهت مقابله با سقوط در آموزش، تیم تحقیقاتی نسخه تثبیتشدهای به نام StarPO-S را معرفی کردهاند که شامل تغییراتی برای تأخیر یا حذف سقوط آموزشی و بهبود عملکرد در همه وظایف است. این تغییرات نشاندهنده اهمیت نه تنها ساختار بلکه کیفیت دادههای تولید شده توسط عوامل نیز هست.
با توجه به پیامدهای مثبتی که RAGEN و فریمورکهای StarPO و StarPO-S به وجود آوردهاند، این سیستم بهعنوان یک پروژه متنباز در دسترس است. اگرچه در زمان نگارش، مجوز مشخصی در مخزن GitHub وجود ندارد، اما RAGEN بهعنوان یک پایه ارزشمند برای توسعه عوامل هوش مصنوعی که فراتر از انجام وظایف عادی فکر و برنامهریزی میکنند، به شمار میآيد.
با ادامه تلاشها برای افزایش خودمختاری در هوش مصنوعی، پروژههایی همچون RAGEN به شفافسازی آنچه برای آموزش مدلهایی که نه تنها از دادهها، بلکه از پیامدهای اقدامات خود یاد میگیرند، کمک میکند. با وجود جزئیات فنی ارائه شده در مقاله RAGEN، سؤالات عملی بسیاری برای کسانی که به دنبال پیادهسازی این روشها در محیطهای تجاری هستند، هنوز وجود دارد.
به طور کلی، RAGEN نه تنها نمایشی از یک دستاورد فنی است، بلکه یک گام مفهومی به سوی تولید عوامل هوش مصنوعی مستقل و با قابلیت استدلال به شمار میآید. اینکه آیا این سیستم بخشی از مجموعه هوش مصنوعی تجاری خواهد شد یا خیر، هنوز در هالهای از ابهام است، اما تحلیلهای آن در زمینه دینامیک یادگیری عوامل، مرزهای آموزش مدلهای LLM را بازتعریف کرده است.