تقطیر زمینه درون‌سیاستی (OPCD): راه‌حلی برای داخلی‌سازی دستورالعمل‌های طولانی در مدل‌های زبانی سازمانی

سازمان‌ها برای سوق دادن مدل‌های زبانی بزرگ (LLM) به رفتارهای تخصصیِ کسب‌وکاری و رعایت قواعد ایمنی معمولاً از «سیستم پرامپت‌های» بسیار طولانی استفاده می‌کنند که حاوی دانش شرکت، سیاست‌ها و دستورالعمل‌های ویژهٔ اپلیکیشن است. این رویکرد هرچند ساده به‌نظر می‌رسد، در مقیاس سازمانی باعث افزایش تأخیر در استنتاج، رشد هزینهٔ هر پرسش و کاهش کارایی می‌شود. محققان مایکروسافت با معرفی چارچوب جدیدی به نام On-Policy Context Distillation (OPCD) نشان داده‌اند که می‌توان این دانش و قواعد را مستقیماً در پارامترهای مدل جا داد تا نیاز به ارسال مداوم متن‌های بزرگ کنار گذاشته شود.

چالشِ «درون‌متنی بودن» و هزینه‌های پنهان
یادگیری درون‌متنی (in-context learning) به توسعه‌دهندگان امکان می‌دهد رفتار مدل را در زمان اجرا با دادن مثال‌ها یا دستورالعمل‌ها تغییر دهند، بدون آن‌که پارامترهای مدل را به‌روزرسانی کنند. اما این دانش موقتی است و با هر مکالمه باید مجدداً ارسال شود؛ عملی که برای سامانه‌های سازمانی به معنای تکرار ارسال آیین‌نامه‌ها، تیکت‌های پشتیبانی یا مستندات فشرده و در نتیجه افزایش هزینه و تأخیر است. علاوه بر این، وارد کردن مکرر متن‌های طولانی می‌تواند باعث سردرگمی مدل و نتیجه‌گیری‌های نادرست (hallucination) شود.

ایدهٔ کلیدی: از معلم به شاگرد تا «شاگردی که از خودش یاد می‌گیرد»
تقطیر زمینه‌ای سنتی بر پایهٔ الگوی معلم-شاگرد است: یک مدل معلم که به تمام پرامپت‌ها دسترسی دارد، خروجی دلخواه را تولید می‌کند و مدل شاگرد روی مجموعهٔ ثابتی از این نمونه‌ها آموزش می‌بیند. اما این روش «آف-پالیسی (off-policy)» چند مشکل اساسی دارد: ایجاد تعصب در معرض داده (exposure bias)، ناتوانی شاگرد در تولید توالی‌های توکنیِ مستقل، و گرایش به تولیدِ پاسخ‌های مبهم به‌خاطر کمبود ظرفیت که اغلب به هذیان‌پردازی منجر می‌شود. همچنین معیار کاهش اختلاف Forward KL باعث می‌شود شاگرد سعی کند تمام حالات ممکن را پوشش دهد که به پراکندگی و کاهش کیفیت می‌انجامد.

OPCD چه تفاوتی ایجاد می‌کند؟
در OPCD، شاگرد برخلاف روش‌های پیشین «به‌صورت درون‌سیاست (on-policy)» از مسیرهای تولید خود یاد می‌گیرد. فرایند به این شکل است که به شاگرد یک مسئله داده می‌شود بدون این‌که پرامپت کامل در اختیارش قرار گیرد؛ سپس شاگرد پاسخ خود را تولید می‌کند و معلمِ دارای پرامپت کامل، در هر گام تولید، خروجیِ شاگرد را با توزیع احتمالاتیِ خودش مقایسه می‌کند. مهم‌ترین نوآوری استفاده از «Reverse KL divergence» به‌عنوان معیار آموزش است که رفتار «mode-seeking» را ترویج می‌دهد: یعنی شاگرد بر نواحی با احتمال بالا تمرکز می‌کند و توکن‌های نامحتمل را که احتمالاً منجر به هذیان می‌شوند سرکوب می‌کند. نتیجه این است که مدل شاگرد در عمل یاد می‌گیرد چگونه از اشتباهاتش اصلاح کند و پیچیدگی‌های دستورالعمل‌های بلند را به‌صورت پایدار در پارامترها ذخیره نماید.

نتایج تجربی و کاربردهای سازمانی
محققان مایکروسافت OPCD را در دو حوزه کلیدی آزمایش کردند: تقطیر دانش تجربی و تقطیر پرامپت‌های سیستمی طولانی.

  • تقطیر دانش تجربی: هدف این بود که مدل از موفقیت‌های گذشتهٔ خود قواعد عمومی استخراج کند و این قواعد را در پارامترهایش جا دهد. در مسائل ریاضی، یک مدل 8 میلیارد پارامتری با OPCD از دقت 75.0% به 80.9% رسید. در بازی «Frozen Lake» یک مدل 1.7 میلیارد پارامتری از 6.3% به 38.3% ارتقا یافت.

  • تقطیر پرامپت‌های سیستمی: برای قواعد رفتاری سخت و جلوگیری از محتوای سمی یا حفظ دقت پزشکی، OPCD توانست این سیاست‌ها را به‌طور پایدار در مدل ضبط کند. نمونه‌ای که قابل توجه است: مدل Llama سه‌میلیارد پارامتری در تشخیص ایمنی و سمیّت از 30.7% به 83.1% رسید و در پاسخ به سوالات پزشکی از 59.4% به 76.3% افزایش یافت.

حفظ توانمندی عمومی و مقابله با فراموشی فاجعه‌بار
یکی از نگرانی‌های متداول هنگام فاین‌تیون شدید، «فراموشی فاجعه‌بار» است که موجب شود مدل در مهارت‌های عمومی تضعیف شود. در آزمایش‌ها، OPCD توانست تخصص‌پذیری را افزایش دهد بدون این‌که به‌طور قابل‌توجهی توانایی‌های عمومی را از دست بدهد؛ به‌طوری که در ارزیابی‌های خارج از توزیع، عملکرد بهتر از روش‌های آف-پالیسی بود.

چه جاهایی OPCD مناسب نیست؟
OPCD برای جاودانه‌سازی دانش ثابت و قواعد سازمانی عالی است، اما برای اطلاعات بسیار پویا یا پایگاه‌های دادهٔ عظیم و به‌روز که قابل فشرده‌سازی در وزن مدل نیستند، روش‌هایی مثل RAG (Retrieval-Augmented Generation) مناسب‌ترند. ترکیب OPCD و RAG می‌تواند در عمل راهکار قدرتمندی باشد: OPCD برای قواعد پایدار و RAG برای محتوای پویا.

پیاده‌سازی و نیازمندی‌ها
محققان می‌گویند OPCD به تغییر معماری‌های پیچیده نیاز ندارد و تیم‌هایی که از چارچوب‌های استاندارد RLVR استفاده می‌کنند می‌توانند آن را با اصطکاک کم ادغام کنند. سخت‌افزار مورد نیاز نیز قابل‌دسترس است: اجرای تجربیات پژوهشی آن‌ها با حدود هشت GPU نوع A100 امکان‌پذیر بوده است. از نظر داده، برای تقطیر دانش تجربی تنها حدود 30 مثال اولیه برای تولید ردپاها کافی است و برای پرامپت‌های سیستمی معمولاً پرامپت‌های بهینه‌شدهٔ موجود و مجموعه‌داده‌های متداول کافی‌اند. تیم تحقیقاتی پیاده‌سازی خود را روی یک کد‌بیس اوپن‌سورس به‌نام onverl ساخته‌اند و قصد دارند پس از بررسی‌های داخلی آن را منتشر کنند.

چشم‌انداز: از آموزش به «آزمونِ یادگیرنده»
OPCD مسیر را به‌سمت مدل‌هایی باز می‌کند که می‌توانند به‌صورت خودبه‌خود از تعاملات دنیای واقعی درس بگیرند و به‌تدریج رفتارهای سازمانی را بدون نیاز به نظارت مداوم یا برچسب‌گذاری گسترده در خود جای دهند. همان‌طور که یکی از نویسندگان مقاله، Tianzhu Ye از مایکروسافت ریسرچ آسیا، اشاره کرده است: استفادهٔ مداوم از مدل و اجازهٔ کسب تجربه توسط آن می‌تواند به محرک اصلی پیشرفت مدل تبدیل شود و این تحولی بنیادین در نحوۀ بهبود مدل‌ها خواهد بود.

چت بات هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا