دیپسیک AI، یک آزمایشگاه تحقیقاتی چینی که به خاطر مدلهای زبانی متن باز خود مانند دیپسیک-R1 شناخته شده است، تحولی مهم در مدلسازی پاداش برای مدلهای زبانی بزرگ (LLMs) ارائه داده است. این آزمایشگاه با توسعه تکنیک جدیدی به نام «تنظیم انتقادی خود-مبنا» (SPCT) هدف دارد تا مدلهای پاداش کلی و مقیاسپذیری طراحی کند که میتوانند به بهبود کاربردهای هوش مصنوعی در حوزههای مختلف کمک کنند. این رویکرد میتواند به رفع نقاط ضعف مدلهای کنونی در درک پیچیدگیها و جزئیات محیط و نیازهای کاربران کمک کند.
یادگیری تقویتی (RL) به عنوان یکی از اصول اساسی در توسعه LLMهای پیشرفته شناخته میشود. در این روند، مدلها بر اساس سیگنالهای بازخوردی که کیفیت پاسخها را نشان میدهند، بهروز میشوند. مدلهای پاداش بهعنوان یک قاضی عمل کرده و خروجیهای LLM را ارزیابی و نمرهگذاری میکنند، که این نمرات در فرآیندRL بهعنوان راهنمایی برای تولید پاسخهای مفیدتر به کار میروند. با این حال، مدلهای پاداش کنونی معمولاً در حوزههای محدود با قوانین واضح یا پاسخهای قابل بررسی خوب عمل میکنند و در مقابل، ایجاد یک مدل پاداش برای پرسشهای پیچیده، باز و یا ذهنی به چالش بزرگی تبدیل شده است.
در مقالهای که به توضیح این تکنیک پرداخته، محققان دیپسیک AI اشاره کردهاند که «مدل پاداش عمومی باید برای تولید پاداشهای باکیفیت فراتر از حوزههای خاص توانایی داشته باشد، جایی که معیارهای پاداش بیشتر و پیچیدهتر هستند و غالباً مرجع یا واقعیت مشخصی وجود ندارد». آنان چهار چالش اصلی در ایجاد مدلهای پاداش عمومی را برجسته کردهاند.
محققان به بررسی روشهای مختلف تولید پاداش میپردازند و پیشنهاد میدهند که الگوی تولید پاداش نقطهای (GRM) میتواند قابلیت انعطاف و مقیاسپذیری لازم را برای انجام وظایف عمومی فراهم کند. تیم دیپسیک آزمایشات مقدماتی را بر روی مدلهایی مانند GPT-4o و Gemma-2-27B انجام داده و دریافتند که «برخی اصول میتوانند راهنمای تولید پاداشها با معیارهای مناسب قرار گیرند».
توسعه SPCT بهعنوان روشی برای آموزش GRM با هدف تولید اصول و انتقادات متناسب با ورودیها و پاسخها طراحی شده است. این محققان فرض میکنند که «اصول باید بخشی از تولید پاداش باشند و نه مرحلهای پیشپردازش». به این ترتیب، GRM میتواند اصول را بهطور دینامیک و بر اساس وظیفهی مورد ارزیابی خود تولید کند.
SPCT شامل دو مرحله اصلی است که در آن، از RL مبتنی بر قوانین برای یادگیری انتقادی و تولید اصول استفاده میشود. برای حل چالش مقیاسپذیری در زمان استنباط، محققان GRM را برای یک ورودی یکسان چندین بار اجرا میکنند تا مجموعههای متفاوتی از اصول و انتقادات تولید کنند. نمره نهایی با رأیگیری تعیین میشود، که این امر به مدل امکان میدهد تا نگاهی جامعتر به بازخوردها داشته باشد.
محققان SPCT را بر روی Gemma-2-27B، مدلی از گوگل که وزنهای باز دارد، اعمال کرده و نسخهای به نام DeepSeek-GRM-27B ایجاد کردند. نتایج نشاندهنده موفقیت این مدل در بهبود کیفیت و مقیاسپذیری در زمان استنباط نسبت به روشهای سنتی است.
با وجود این موفقیتها، دیپسیک-GRM هنوز در برابر مدلهای پاداش خاص مانند RMs نقطهای در وظایف کاملاً قابل بررسی با چالشهایی روبهرو است. به طور کلی، توسعه مدلهای پاداش عمومی و مقیاسپذیر میتواند نویدبخش کاربردهای عمومی هوش مصنوعی باشد، بهویژه در زمینه وظایف خلاقانه و محیطهای متغیر.
محققان به آیندهنگری در راستای بهبود کارایی و ادغام عمیقتر مدلها پرداختند. این پژوهشها میتوانند به تولید سیستمهای هوش مصنوعی مؤثرتر و کارآمدتر کمک کنند.