گروهی از محققان دانشگاه استنفورد و گوگل دیپمایند بهتازگی تکنیک جدیدی به نام “یادگیری تقویتی مرحلهای” (SWiRL) را معرفی کردهاند که هدف آن بهبود توانایی مدلهای زبانی بزرگ (LLMs) در انجام وظایف پیچیدهای است که نیاز به استدلال چند مرحلهای و استفاده از ابزار دارند. با افزایش علاقهمندی به سامانههای هوش مصنوعی و کاربرد ابزارهای LLM، این تکنیک میتواند مزایای قابلتوجهی برای سازمانها به همراه داشته باشد که به دنبال ادغام مدلهای استدلالی در برنامهها و گردش کار خود هستند.
در دنیای واقعی، بسیاری از کارکردهای سازمانی شامل فرآیندهای چند مرحلهای است. به عنوان مثال، برنامهریزی یک کمپین بازاریابی پیچیده ممکن است شامل تحقیق بازار، تحلیل دادههای داخلی، محاسبه بودجه و بررسی بلیطهای پشتیبانی مشتری باشد. این فرآیندها نیاز به جستجوهای آنلاین، دسترسی به پایگاههای داده داخلی و اجرای کد دارند. بهطور سنتی، روشهای یادگیری تقویتی (RL) که برای تنظیم مدلهای LLM استفاده میشوند، بهینهسازی را برای وظایف استدلال یک مرحلهای متمرکز میکنند.
تمامی نویسندگان مقاله SWiRL، آنا گلدی از گوگل دیپمایند و آزالیه میرحسینی از دانشگاه استنفورد، بر این باورند که روشهای آموزشی فعلی LLM برای وظایف استدلال چند مرحلهای که در کاربردهای دنیای واقعی وجود دارد، مناسب نیستند. آنها به وبسایت VentureBeat گفتند: “مدلهای LLM که بهوسیله روشهای سنتی آموزش میبینند معمولاً در برنامهریزی چند مرحلهای و ادغام ابزارها با مشکل مواجه میشوند.”
تکنیک SWiRL این چالش چند مرحلهای را از طریق ترکیبی از تولید دادههای مصنوعی و یک رویکرد تخصصی RL که مدلها را در مجموعه اقداماتی که به صورت پیوسته اجرا میشوند آموزش میدهد، حل میکند. هدف این است که به مدل آموزش داده شود که چگونه مسائل پیچیده را به توالیای از زیرکارهای قابلمدیریت تقسیم کند و همچنین بداند که چه زمان و چطور از ابزارها استفاده کند.
این روش در دو بخش اجرا میشود: در مرحله اول، SWiRL مقادیر زیادی داده استدلال چند مرحلهای و استفاده از ابزار را تولید و فیلتر میکند. در مرحله دوم، از یک الگوریتم RL مرحلهای برای بهینهسازی LLM پایه با استفاده از این مسیرهای تولید شده بهره میگیرد. این روش به دلیل قابلیت تولید سریع حجم زیادی از دادههای آموزشی چند مرحلهای، مزیت عملی قابلتوجهی دارد.
تیم تحقیقاتی SWiRL از دادههایی که از سوالات موجود در معیارهای پاسخگویی چندپرشی تهیه شدهاند، برای آموزش مدل استفاده کردند و از چهار استراتژی فیلتر کردن داده استفاده کردند. نتایج آزمایشها نشان داد که SWiRL توانایی بالایی در یادگیری از مسیرهایی دارد که ممکن است به پاسخ نادرست منجر شوند، به شرطی که مراحل مدل در مجموع منطقی باشند.
الگوریتم SWiRL همچنین به مدل اجازه میدهد تا در زمان استنتاج به طرز مشابهی عمل کند و بلافاصله نسبت به ورودیها پاسخ دهد. با این روش، مدل میتواند بهصورت تکراری پاسخهای بهتری تولید کند و این روش به طور چشمگیری بر دقت پاسخهای تولید شده تأثیر میگذارد.
با ارزیابی SWiRL در چندین وظیفه دشوار مرتبط با استدلال ریاضی و پرسشوپاسخ، نتایج نشاندهنده بهبود چشمگیر دقت مدلهای آموزشدیده شده توسط SWiRL در مقایسه با مدلهای پایه بودند. این تکنیک قابلیتهای تعمیم دادهای بالایی دارد و ممکن است حتی در زمینههای دیگر مانند کدنویسی نیز کاربرد داشته باشد.
تحقیقات آنا گلدی و آزالیه میرحسینی نشان میدهد که مدلهای هوش مصنوعی که با استفاده از SWiRL آموزش دیدهاند، میتوانند بهطور قابلتوجهی در وظایف متفاوت که به ظاهر بیارتباط به هم هستند، بهبود عملکرد نشان دهند. با توجه به روند رو به رشد کاربردهای هوش مصنوعی در صنایع مختلف، این یافتهها اهمیت ویژهای دارند و نشاندهنده آیندهای روشن برای ادغام مدلهای پیشرفته LLM در سیستمهای سازمانی خواهند بود.