دستیابی به پیشرفت‌های جدید در هوش مصنوعی با RAGEN: سیستم نوآورانه آموزش و ارزیابی عوامل هوش مصنوعی

طبق گزارش‌های کارشناسان، سال ۲۰۲۵ به‌عنوان سال عوامل هوش مصنوعی شناخته می‌شود — پیاده‌سازی‌های هوش مصنوعی خاص وظیفه، که با استفاده از مدل‌های متن‌باز و چندمدلی پیشرفته‌ای همچون مدل‌های OpenAI، Anthropic، Google و DeepSeek ایجاد شده‌اند. اما طبق نظرسنجی اخیر VentureBeat در شبکه اجتماعی X، تا به امروز اکثر عوامل هوش مصنوعی در مراحل آزمایشی باقی مانده‌اند و هنوز به مرحله کاربردی نرسیده‌اند. اما نویدهایی از پیشرفت در راه است: تیمی از دانشگاه‌های نورث‌وسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن با همکاری یک پژوهشگر سابق DeepSeek به نام زیهان وانگ، که در حال حاضر در حال لیسانس کامپیوتر در نورث‌وسترن است، سیستم جدیدی به نام RAGEN را معرفی کرده‌اند.

RAGEN، سیستم آموزشی و ارزیابی برای عوامل هوش مصنوعی است که به منظور افزایش قابلیت اعتماد و عملکرد آن‌ها در استفاده‌های واقعی و در مقیاس تجاری طراحی شده است. بر خلاف وظایف ایستا مانند حل مسائل ریاضی یا تولید کد، RAGEN بر روی محیط‌های چندحرکتی و تعاملی متمرکز است که در آن عوامل باید در مواجهه با عدم قطعیت، تطبیق، به یادآوری و استدلال کنند. این سیستم بر مبنای یک فریم‌ورک یادگیری تقویتی سفارشی به نام StarPO (State-Thinking-Actions-Reward Policy Optimization) ساخته شده است و نشان می‌دهد که چگونه مدل‌های زبان بزرگ می‌توانند از طریق تجربه و نه صرفاً از طریق حافظه یاد بگیرند.

مدل StarPO در دو مرحله همزمان عمل می‌کند: مرحله خروجی که در آن مدل زبان بزرگ، دنباله‌های کامل تعامل را که توسط استدلال هدایت می‌شود تولید می‌کند و مرحله به‌روزرسانی که در آن مدل با استفاده از پاداش‌های تجمعی نرمال‌شده بهینه‌سازی می‌شود. این ساختار، یک حلقه یادگیری پایدار و قابل تفسیر را نسبت به رویکردهای سنتی بهینه‌سازی سیاست فراهم می‌کند.

اعضای تیم برای تست فریم‌ورک RAGEN از مدل‌های Qwen شرکت علی‌بابا، از جمله Qwen 1.5 و Qwen 2.5 استفاده کردند که انتخاب آن‌ها به دلیل قابلیت‌های قوی پیروی از دستور و وزن‌های باز آن‌ها انجام شد. این انتخاب، قابلیت تکرار و مقایسه‌های پایه‌ای منسجم را فراهم کرد.

وانگ در یک رشته عمومی در X، چالش اصلی را خلاصه می‌کند: “چرا آموزش یادگیری تقویتی شما همیشه در حال سقوط است؟” بر اساس گفته‌های تیم، عوامل LLM در ابتدا پاسخ‌های نمادین و با استدلال خوبی تولید می‌کنند، اما همزمان با پیشرفت، سیستم‌های یادگیری تقویتی تمایل به پاداش‌های راه‌حل‌های میان‌بر دارند، که به رفتارهای تکراری منجر می‌شود و عملکرد کلی را کاهش می‌دهد — الگویی که آن را “تله اکو” می‌نامند.

تیم RAGEN در تلاش است تا این رفتا را در محیط‌های سه‌گانه نمادین با هدف به حداقل رساندن پیش‌فرض‌های دنیای واقعی و تمرکز بر استراتژی‌های تصمیم‌گیری که در طول آموزش توسعه یافته‌اند، مطالعه کند. آن‌ها در محیطی به نام “باندیت”، باید به صورت نمادین فکر کنند تا نتایج را پیش‌بینی کنند.

جهت مقابله با سقوط در آموزش، تیم تحقیقاتی نسخه تثبیت‌شده‌ای به نام StarPO-S را معرفی کرده‌اند که شامل تغییراتی برای تأخیر یا حذف سقوط آموزشی و بهبود عملکرد در همه وظایف است. این تغییرات نشان‌دهنده اهمیت نه تنها ساختار بلکه کیفیت داده‌های تولید شده توسط عوامل نیز هست.

با توجه به پیامدهای مثبتی که RAGEN و فریم‌ورک‌های StarPO و StarPO-S به وجود آورده‌اند، این سیستم به‌عنوان یک پروژه متن‌باز در دسترس است. اگرچه در زمان نگارش، مجوز مشخصی در مخزن GitHub وجود ندارد، اما RAGEN به‌عنوان یک پایه ارزشمند برای توسعه عوامل هوش مصنوعی که فراتر از انجام وظایف عادی فکر و برنامه‌ریزی می‌کنند، به شمار می‌آيد.

با ادامه تلاش‌ها برای افزایش خودمختاری در هوش مصنوعی، پروژه‌هایی همچون RAGEN به شفاف‌سازی آنچه برای آموزش مدل‌هایی که نه تنها از داده‌ها، بلکه از پیامدهای اقدامات خود یاد می‌گیرند، کمک می‌کند. با وجود جزئیات فنی ارائه شده در مقاله RAGEN، سؤالات عملی بسیاری برای کسانی که به دنبال پیاده‌سازی این روش‌ها در محیط‌های تجاری هستند، هنوز وجود دارد.

به طور کلی، RAGEN نه تنها نمایشی از یک دستاورد فنی است، بلکه یک گام مفهومی به سوی تولید عوامل هوش مصنوعی مستقل و با قابلیت استدلال به شمار می‌آید. اینکه آیا این سیستم بخشی از مجموعه هوش مصنوعی تجاری خواهد شد یا خیر، هنوز در هاله‌ای از ابهام است، اما تحلیل‌های آن در زمینه دینامیک یادگیری عوامل، مرزهای آموزش مدل‌های LLM را بازتعریف کرده است.

تولید تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا