تقطیر زمینه درونسیاستی (OPCD): راهحلی برای داخلیسازی دستورالعملهای طولانی در مدلهای زبانی سازمانی
سازمانها برای سوق دادن مدلهای زبانی بزرگ (LLM) به رفتارهای تخصصیِ کسبوکاری و رعایت قواعد ایمنی معمولاً از «سیستم پرامپتهای» بسیار طولانی استفاده میکنند که حاوی دانش شرکت، سیاستها و دستورالعملهای ویژهٔ اپلیکیشن است. این رویکرد هرچند ساده بهنظر میرسد، در مقیاس سازمانی باعث افزایش تأخیر در استنتاج، رشد هزینهٔ هر پرسش و کاهش کارایی میشود. محققان مایکروسافت با معرفی چارچوب جدیدی به نام On-Policy Context Distillation (OPCD) نشان دادهاند که میتوان این دانش و قواعد را مستقیماً در پارامترهای مدل جا داد تا نیاز به ارسال مداوم متنهای بزرگ کنار گذاشته شود.
چالشِ «درونمتنی بودن» و هزینههای پنهان
یادگیری درونمتنی (in-context learning) به توسعهدهندگان امکان میدهد رفتار مدل را در زمان اجرا با دادن مثالها یا دستورالعملها تغییر دهند، بدون آنکه پارامترهای مدل را بهروزرسانی کنند. اما این دانش موقتی است و با هر مکالمه باید مجدداً ارسال شود؛ عملی که برای سامانههای سازمانی به معنای تکرار ارسال آییننامهها، تیکتهای پشتیبانی یا مستندات فشرده و در نتیجه افزایش هزینه و تأخیر است. علاوه بر این، وارد کردن مکرر متنهای طولانی میتواند باعث سردرگمی مدل و نتیجهگیریهای نادرست (hallucination) شود.
ایدهٔ کلیدی: از معلم به شاگرد تا «شاگردی که از خودش یاد میگیرد»
تقطیر زمینهای سنتی بر پایهٔ الگوی معلم-شاگرد است: یک مدل معلم که به تمام پرامپتها دسترسی دارد، خروجی دلخواه را تولید میکند و مدل شاگرد روی مجموعهٔ ثابتی از این نمونهها آموزش میبیند. اما این روش «آف-پالیسی (off-policy)» چند مشکل اساسی دارد: ایجاد تعصب در معرض داده (exposure bias)، ناتوانی شاگرد در تولید توالیهای توکنیِ مستقل، و گرایش به تولیدِ پاسخهای مبهم بهخاطر کمبود ظرفیت که اغلب به هذیانپردازی منجر میشود. همچنین معیار کاهش اختلاف Forward KL باعث میشود شاگرد سعی کند تمام حالات ممکن را پوشش دهد که به پراکندگی و کاهش کیفیت میانجامد.
OPCD چه تفاوتی ایجاد میکند؟
در OPCD، شاگرد برخلاف روشهای پیشین «بهصورت درونسیاست (on-policy)» از مسیرهای تولید خود یاد میگیرد. فرایند به این شکل است که به شاگرد یک مسئله داده میشود بدون اینکه پرامپت کامل در اختیارش قرار گیرد؛ سپس شاگرد پاسخ خود را تولید میکند و معلمِ دارای پرامپت کامل، در هر گام تولید، خروجیِ شاگرد را با توزیع احتمالاتیِ خودش مقایسه میکند. مهمترین نوآوری استفاده از «Reverse KL divergence» بهعنوان معیار آموزش است که رفتار «mode-seeking» را ترویج میدهد: یعنی شاگرد بر نواحی با احتمال بالا تمرکز میکند و توکنهای نامحتمل را که احتمالاً منجر به هذیان میشوند سرکوب میکند. نتیجه این است که مدل شاگرد در عمل یاد میگیرد چگونه از اشتباهاتش اصلاح کند و پیچیدگیهای دستورالعملهای بلند را بهصورت پایدار در پارامترها ذخیره نماید.
نتایج تجربی و کاربردهای سازمانی
محققان مایکروسافت OPCD را در دو حوزه کلیدی آزمایش کردند: تقطیر دانش تجربی و تقطیر پرامپتهای سیستمی طولانی.
-
تقطیر دانش تجربی: هدف این بود که مدل از موفقیتهای گذشتهٔ خود قواعد عمومی استخراج کند و این قواعد را در پارامترهایش جا دهد. در مسائل ریاضی، یک مدل 8 میلیارد پارامتری با OPCD از دقت 75.0% به 80.9% رسید. در بازی «Frozen Lake» یک مدل 1.7 میلیارد پارامتری از 6.3% به 38.3% ارتقا یافت.
-
تقطیر پرامپتهای سیستمی: برای قواعد رفتاری سخت و جلوگیری از محتوای سمی یا حفظ دقت پزشکی، OPCD توانست این سیاستها را بهطور پایدار در مدل ضبط کند. نمونهای که قابل توجه است: مدل Llama سهمیلیارد پارامتری در تشخیص ایمنی و سمیّت از 30.7% به 83.1% رسید و در پاسخ به سوالات پزشکی از 59.4% به 76.3% افزایش یافت.
حفظ توانمندی عمومی و مقابله با فراموشی فاجعهبار
یکی از نگرانیهای متداول هنگام فاینتیون شدید، «فراموشی فاجعهبار» است که موجب شود مدل در مهارتهای عمومی تضعیف شود. در آزمایشها، OPCD توانست تخصصپذیری را افزایش دهد بدون اینکه بهطور قابلتوجهی تواناییهای عمومی را از دست بدهد؛ بهطوری که در ارزیابیهای خارج از توزیع، عملکرد بهتر از روشهای آف-پالیسی بود.
چه جاهایی OPCD مناسب نیست؟
OPCD برای جاودانهسازی دانش ثابت و قواعد سازمانی عالی است، اما برای اطلاعات بسیار پویا یا پایگاههای دادهٔ عظیم و بهروز که قابل فشردهسازی در وزن مدل نیستند، روشهایی مثل RAG (Retrieval-Augmented Generation) مناسبترند. ترکیب OPCD و RAG میتواند در عمل راهکار قدرتمندی باشد: OPCD برای قواعد پایدار و RAG برای محتوای پویا.
پیادهسازی و نیازمندیها
محققان میگویند OPCD به تغییر معماریهای پیچیده نیاز ندارد و تیمهایی که از چارچوبهای استاندارد RLVR استفاده میکنند میتوانند آن را با اصطکاک کم ادغام کنند. سختافزار مورد نیاز نیز قابلدسترس است: اجرای تجربیات پژوهشی آنها با حدود هشت GPU نوع A100 امکانپذیر بوده است. از نظر داده، برای تقطیر دانش تجربی تنها حدود 30 مثال اولیه برای تولید ردپاها کافی است و برای پرامپتهای سیستمی معمولاً پرامپتهای بهینهشدهٔ موجود و مجموعهدادههای متداول کافیاند. تیم تحقیقاتی پیادهسازی خود را روی یک کدبیس اوپنسورس بهنام onverl ساختهاند و قصد دارند پس از بررسیهای داخلی آن را منتشر کنند.
چشمانداز: از آموزش به «آزمونِ یادگیرنده»
OPCD مسیر را بهسمت مدلهایی باز میکند که میتوانند بهصورت خودبهخود از تعاملات دنیای واقعی درس بگیرند و بهتدریج رفتارهای سازمانی را بدون نیاز به نظارت مداوم یا برچسبگذاری گسترده در خود جای دهند. همانطور که یکی از نویسندگان مقاله، Tianzhu Ye از مایکروسافت ریسرچ آسیا، اشاره کرده است: استفادهٔ مداوم از مدل و اجازهٔ کسب تجربه توسط آن میتواند به محرک اصلی پیشرفت مدل تبدیل شود و این تحولی بنیادین در نحوۀ بهبود مدلها خواهد بود.
