گروهی از محققان دانشگاه استنفورد و گوگل دیپ‌مایند به‌تازگی تکنیک جدیدی به نام “یادگیری تقویتی مرحله‌ای” (SWiRL) را معرفی کرده‌اند که هدف آن بهبود توانایی مدل‌های زبانی بزرگ (LLMs) در انجام وظایف پیچیده‌ای است که نیاز به استدلال چند مرحله‌ای و استفاده از ابزار دارند. با افزایش علاقه‌مندی به سامانه‌های هوش مصنوعی و کاربرد ابزارهای LLM، این تکنیک می‌تواند مزایای قابل‌توجهی برای سازمان‌ها به همراه داشته باشد که به دنبال ادغام مدل‌های استدلالی در برنامه‌ها و گردش کار خود هستند.

در دنیای واقعی، بسیاری از کارکردهای سازمانی شامل فرآیندهای چند مرحله‌ای است. به عنوان مثال، برنامه‌ریزی یک کمپین بازاریابی پیچیده ممکن است شامل تحقیق بازار، تحلیل داده‌های داخلی، محاسبه بودجه و بررسی بلیط‌های پشتیبانی مشتری باشد. این فرآیندها نیاز به جستجوهای آنلاین، دسترسی به پایگاه‌های داده داخلی و اجرای کد دارند. به‌طور سنتی، روش‌های یادگیری تقویتی (RL) که برای تنظیم مدل‌های LLM استفاده می‌شوند، بهینه‌سازی را برای وظایف استدلال یک مرحله‌ای متمرکز می‌کنند.

تمامی نویسندگان مقاله SWiRL، آنا گلدی از گوگل دیپ‌مایند و آزالیه میرحسینی از دانشگاه استنفورد، بر این باورند که روش‌های آموزشی فعلی LLM برای وظایف استدلال چند مرحله‌ای که در کاربردهای دنیای واقعی وجود دارد، مناسب نیستند. آن‌ها به وب‌سایت VentureBeat گفتند: “مدل‌های LLM که به‌وسیله روش‌های سنتی آموزش می‌بینند معمولاً در برنامه‌ریزی چند مرحله‌ای و ادغام ابزارها با مشکل مواجه می‌شوند.”

تکنیک SWiRL این چالش چند مرحله‌ای را از طریق ترکیبی از تولید داده‌های مصنوعی و یک رویکرد تخصصی RL که مدل‌ها را در مجموعه اقداماتی که به صورت پیوسته اجرا می‌شوند آموزش می‌دهد، حل می‌کند. هدف این است که به مدل آموزش داده شود که چگونه مسائل پیچیده را به توالی‌ای از زیرکارهای قابل‌مدیریت تقسیم کند و همچنین بداند که چه زمان و چطور از ابزارها استفاده کند.

این روش در دو بخش اجرا می‌شود: در مرحله اول، SWiRL مقادیر زیادی داده استدلال چند مرحله‌ای و استفاده از ابزار را تولید و فیلتر می‌کند. در مرحله دوم، از یک الگوریتم RL مرحله‌ای برای بهینه‌سازی LLM پایه با استفاده از این مسیرهای تولید شده بهره می‌گیرد. این روش به دلیل قابلیت تولید سریع حجم زیادی از داده‌های آموزشی چند مرحله‌ای، مزیت عملی قابل‌توجهی دارد.

تیم تحقیقاتی SWiRL از داده‌هایی که از سوالات موجود در معیارهای پاسخ‌گویی چندپرشی تهیه شده‌اند، برای آموزش مدل استفاده کردند و از چهار استراتژی فیلتر کردن داده استفاده کردند. نتایج آزمایش‌ها نشان داد که SWiRL توانایی بالایی در یادگیری از مسیرهایی دارد که ممکن است به پاسخ نادرست منجر شوند، به شرطی که مراحل مدل در مجموع منطقی باشند.

الگوریتم SWiRL همچنین به مدل اجازه می‌دهد تا در زمان استنتاج به طرز مشابهی عمل کند و بلافاصله نسبت به ورودی‌ها پاسخ دهد. با این روش، مدل می‌تواند به‌صورت تکراری پاسخ‌های بهتری تولید کند و این روش به طور چشمگیری بر دقت پاسخ‌های تولید شده تأثیر می‌گذارد.

با ارزیابی SWiRL در چندین وظیفه دشوار مرتبط با استدلال ریاضی و پرسش‌وپاسخ، نتایج نشان‌دهنده بهبود چشمگیر دقت مدل‌های آموزش‌دیده شده توسط SWiRL در مقایسه با مدل‌های پایه بودند. این تکنیک قابلیت‌های تعمیم داده‌ای بالایی دارد و ممکن است حتی در زمینه‌های دیگر مانند کدنویسی نیز کاربرد داشته باشد.

تحقیقات آنا گلدی و آزالیه میرحسینی نشان می‌دهد که مدل‌های هوش مصنوعی که با استفاده از SWiRL آموزش دیده‌اند، می‌توانند به‌طور قابل‌توجهی در وظایف متفاوت که به ظاهر بی‌ارتباط به هم هستند، بهبود عملکرد نشان دهند. با توجه به روند رو به رشد کاربردهای هوش مصنوعی در صنایع مختلف، این یافته‌ها اهمیت ویژه‌ای دارند و نشان‌دهنده آینده‌ای روشن برای ادغام مدل‌های پیشرفته LLM در سیستم‌های سازمانی خواهند بود.

تبدیل متن‌های فارسی به صوت

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا