دیپ‌سیک AI، یک آزمایشگاه تحقیقاتی چینی که به خاطر مدل‌های زبانی متن باز خود مانند دیپ‌سیک-R1 شناخته شده است، تحولی مهم در مدل‌سازی پاداش برای مدل‌های زبانی بزرگ (LLMs) ارائه داده است. این آزمایشگاه با توسعه تکنیک جدیدی به نام «تنظیم انتقادی خود-مبنا» (SPCT) هدف دارد تا مدل‌های پاداش کلی و مقیاس‌پذیری طراحی کند که می‌توانند به بهبود کاربردهای هوش مصنوعی در حوزه‌های مختلف کمک کنند. این رویکرد می‌تواند به رفع نقاط ضعف مدل‌های کنونی در درک پیچیدگی‌ها و جزئیات محیط و نیازهای کاربران کمک کند.

یادگیری تقویتی (RL) به عنوان یکی از اصول اساسی در توسعه LLMهای پیشرفته شناخته می‌شود. در این روند، مدل‌ها بر اساس سیگنال‌های بازخوردی که کیفیت پاسخ‌ها را نشان می‌دهند، به‌روز می‌شوند. مدل‌های پاداش به‌عنوان یک قاضی عمل کرده و خروجی‌های LLM را ارزیابی و نمره‌گذاری می‌کنند، که این نمرات در فرآیندRL به‌عنوان راهنمایی برای تولید پاسخ‌های مفیدتر به کار می‌روند. با این حال، مدل‌های پاداش کنونی معمولاً در حوزه‌های محدود با قوانین واضح یا پاسخ‌های قابل بررسی خوب عمل می‌کنند و در مقابل، ایجاد یک مدل پاداش برای پرسش‌های پیچیده، باز و یا ذهنی به چالش بزرگی تبدیل شده است.

در مقاله‌ای که به توضیح این تکنیک پرداخته، محققان دیپ‌سیک AI اشاره کرده‌اند که «مدل پاداش عمومی باید برای تولید پاداش‌های باکیفیت فراتر از حوزه‌های خاص توانایی داشته باشد، جایی که معیارهای پاداش بیشتر و پیچیده‌تر هستند و غالباً مرجع یا واقعیت مشخصی وجود ندارد». آنان چهار چالش اصلی در ایجاد مدل‌های پاداش عمومی را برجسته کرده‌اند.

محققان به بررسی روش‌های مختلف تولید پاداش می‌پردازند و پیشنهاد می‌دهند که الگوی تولید پاداش نقطه‌ای (GRM) می‌تواند قابلیت انعطاف و مقیاس‌پذیری لازم را برای انجام وظایف عمومی فراهم کند. تیم دیپ‌سیک آزمایشات مقدماتی را بر روی مدل‌هایی مانند GPT-4o و Gemma-2-27B انجام داده و دریافتند که «برخی اصول می‌توانند راهنمای تولید پاداش‌ها با معیارهای مناسب قرار گیرند».

توسعه SPCT به‌عنوان روشی برای آموزش GRM با هدف تولید اصول و انتقادات متناسب با ورودی‌ها و پاسخ‌ها طراحی شده است. این محققان فرض می‌کنند که «اصول باید بخشی از تولید پاداش باشند و نه مرحله‌ای پیش‌پردازش». به این ترتیب، GRM می‌تواند اصول را به‌طور دینامیک و بر اساس وظیفه‌ی مورد ارزیابی خود تولید کند.

SPCT شامل دو مرحله اصلی است که در آن، از RL مبتنی بر قوانین برای یادگیری انتقادی و تولید اصول استفاده می‌شود. برای حل چالش مقیاس‌پذیری در زمان استنباط، محققان GRM را برای یک ورودی یکسان چندین بار اجرا می‌کنند تا مجموعه‌های متفاوتی از اصول و انتقادات تولید کنند. نمره نهایی با رأی‌گیری تعیین می‌شود، که این امر به مدل امکان می‌دهد تا نگاهی جامع‌تر به بازخوردها داشته باشد.

محققان SPCT را بر روی Gemma-2-27B، مدلی از گوگل که وزن‌های باز دارد، اعمال کرده و نسخه‌ای به نام DeepSeek-GRM-27B ایجاد کردند. نتایج نشان‌دهنده موفقیت این مدل در بهبود کیفیت و مقیاس‌پذیری در زمان استنباط نسبت به روش‌های سنتی است.

با وجود این موفقیت‌ها، دیپ‌سیک-GRM هنوز در برابر مدل‌های پاداش خاص مانند RMs نقطه‌ای در وظایف کاملاً قابل بررسی با چالش‌هایی روبه‌رو است. به طور کلی، توسعه مدل‌های پاداش عمومی و مقیاس‌پذیر می‌تواند نویدبخش کاربردهای عمومی هوش مصنوعی باشد، به‌ویژه در زمینه وظایف خلاقانه و محیط‌های متغیر.

محققان به آینده‌نگری در راستای بهبود کارایی و ادغام عمیق‌تر مدل‌ها پرداختند. این پژوهش‌ها می‌توانند به تولید سیستم‌های هوش مصنوعی مؤثرتر و کارآمدتر کمک کنند.

تبدیل صوت به متن فارسی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا