MIT روش جدید تنظیم دقیق را معرفی کرد: آموزش مهارت‌های جدید به LLMها بدون از دست رفتن مهارت‌های قبلی

عنوان: پژوهشگران MIT، Improbable AI Lab و ETH Zurich روش جدیدی برای «یادگیری مداوم» در LLMها معرفی کردند: Self‑Distillation Fine‑Tuning (SDFT)

خلاصه: تیمی از پژوهشگران دانشگاه MIT، آزمایشگاه Improbable AI و ETH Zurich روش جدیدی به نام self‑distillation fine‑tuning (SDFT) ارائه کرده‌اند که به مدل‌های زبان بزرگ (LLM) امکان می‌دهد مهارت‌ها و دانش جدید را بیاموزند بدون آنکه دانش قبلی‌شان را از دست بدهند. این روش می‌تواند راه‌حلی عملی برای شرکت‌هایی باشد که از پراکندگی «مجموعه مدل‌ها» (model zoo) رنج می‌برند و به دنبال یک مدل یکپارچه و قابل توسعه برای کاربردهای سازمانی هستند.

متن خبر:
یکی از بزرگ‌ترین چالش‌های به‌کارگیری LLMها در سازمان‌ها، مسئله «یادگیری مداوم» (continual learning) و فراموشی فاجعه‌بار (catastrophic forgetting) است: هنگام فاین‌تیون کردن برای مهارت یا دانش جدید، مدل اغلب عملکرد قبلی خود را از دست می‌دهد و به همین دلیل شرکت‌ها ناچار به نگهداری چندین مدل متناسب با هر وظیفه می‌شوند. پژوهش جدیدی که توسط محققان MIT، Improbable AI Lab و ETH Zurich منتشر شده، روشی نوآورانه برای رفع این مشکل معرفی می‌کند: self‑distillation fine‑tuning یا SDFT.

چیست و چگونه کار می‌کند؟
SDFT ترکیبی از ایده‌های یادگیری درون‌حوزه‌ای (in‑context learning یا ICL)، distillation و فاین‌تیون است. در این روش، در طول فرایند آموزش یک مدل در دو نقش به‌کار گرفته می‌شود:
– معلم (Teacher): نسخه‌ای ثابت‌شده از مدل که پرسش همراه با نمونه‌های کارشناسی (demonstrations) را دریافت می‌کند و با استفاده از قابلیت ICL پاسخ و منطق استدلالی را استخراج می‌کند.
– شاگرد (Student): نسخه‌ای از مدل که فقط پرسش را می‌بیند (شبیه‌سازی وضعیت عملیاتی واقعی). شاگرد پاسخ می‌دهد و سپس معلم با دسترسی به نمونه‌های کارشناسی بازخوردی ارائه می‌کند. شاگرد پارامترهای خود را برای نزدیک‌تر شدن به توزیع معلم به‌روزرسانی می‌کند.

این چرخه عملا یک حلقه یادگیری «on‑policy» شبیه به روش‌های تقویتی ایجاد می‌کند اما بدون نیاز به تعریف یک تابع پاداش صریح. به‌جای آموزش صرفاً از داده‌های ثابت (off‑policy) مانند SFT معمولی، مدل از تعاملات خود و بازخورد درون‌مدلی برای اصلاح مسیرهای استدلال استفاده می‌کند.

نتایج تجربی و مقایسه با روش‌های مرسوم
محققان SDFT را روی مدل متن‌باز Qwen 2.5 و در سه مهارت سنگین سازمانی آزمایش کردند: پرسش‌و‌پاسخ علمی، استفاده از ابزارهای نرم‌افزاری و استدلال پزشکی. نکات کلیدی نتایج:
– در بنچمارک Science Q&A، مدل SDFT به دقت 70.2% رسید در برابر 66.2% برای فاین‌تیون نظارت‌شده (SFT).
– هنگام افزودن مهارت علمی، مدل SFT توانایی پاسخ به پرسش‌های عمومی (منطق، علوم انسانی) را به‌شدت از دست داد؛ در حالی که مدل SDFT ضمن افزایش مهارت علمی، نمره بخش «وظایف قبلی» را پایدار نگه داشت (حدود 64.5%).
– در آزمایشی برای «تزریق دانش» فرضی (مثلاً حوادث طبیعی 2025) مدل SDFT توانست دانش جدید را نه تنها به‌صورت حفظی بلکه به‌صورت استدلالی به‌کار بندد و در پرسش‌های استنتاجی تا 98% موفقیت نشان داد، در حالی که SFT صرفاً حقایق را حفظ کرده اما در استدلال ضعیف بود.
– در سناریوی یادگیری ترتیبی (علم → ابزارها → پزشکی)، مدل‌های SFT دچار نوسان و افت مهارت‌های قبلی شدند، اما SDFT توانست مهارت‌ها را تجمیع کرده و بدون پسروی حفظ کند.

منافع برای شرکت‌ها
– کاهش نیاز به «مزرعه مدل‌ها» (model zoo): سازمان‌ها می‌توانند به‌جای نگهداری چندین مدل تفصیلی برای هر دپارتمان، یک مدل واحد داشته باشند که به مرور چندین مهارت را افزوده و دانش اختصاصی شرکت را کسب می‌کند.
– صرفه‌جویی در هزینه‌های استنتاج (inference): بازدهی و یکپارچه‌سازی مدل‌ها می‌تواند هزینه‌های میزبانی و نگهداری را کاهش دهد.
– مناسب برای وظایفی که تعریف تابع پاداش ریاضی دشوار یا غیرممکن است، مانند نگارش پرونده‌های حقوقی یا خلاصه‌سازی جلسات.

محدودیت‌ها و ملاحظات عملی
– نیاز به مدل‌هایی با توانایی قوی ICL: فعلاً مدل‌هایی با حدود 4 میلیارد پارامتر یا بیشتر (با معماری‌های جدید مانند Qwen 3) عملکرد مطلوبی نشان داده‌اند، اگرچه تیم انتظار دارد مدل‌های ~1B در آینده نزدیک برای SDFT مناسب شوند.
– هزینه محاسباتی بیشتر: SDFT به دلیل تولید پاسخ‌های درون‌آموزشی (rollouts) در طول آموزش، تقریباً 2.5 برابر FLOP بیشتری نیاز دارد و در عمل حدود چهار برابر کندتر از فاین‌تیون معمولی است. با این حال، نگهداری بهتر دانش می‌تواند نیاز به چندین مرحله بازآموزی پرهزینه را کاهش دهد.
– وابستگی به توانایی مدل در نقش «معلمِ خود»: مدل‌های خیلی کوچک در ابتدا قادر به تولید سیگنال درست به‌عنوان معلم نبودند، اما پیشرفت سریع مدل‌های کوچکتر این مانع را در حال کاهش است.

دسترس‌پذیری و ادغام در جریان‌های کاری سازمانی
کد SDFT روی GitHub منتشر شده و آماده ادغام در جریان‌های آموزش مدل موجود است. تیم توسعه درحال همکاری با Hugging Face برای افزودن SDFT به کتابخانه Transformer Reinforcement Learning (TRL) است و یک pull request نیز برای آزمایش و یکپارچه‌سازی باز است. این امر به تیم‌های توسعه اجازه می‌دهد SDFT را در کارتابل‌های آموزشی فعلی خود پیاده‌سازی و آزمون کنند.

جمع‌بندی
SDFT راه‌حلی عملی و نوآورانه برای مشکل مهم یادگیری مداوم در LLMها ارائه می‌دهد: امکان یادگیری مهارت‌ها و دانش جدید به‌صورت ترتیبی بدون از دست دادن قابلیت‌های قبلی. برای شرکت‌هایی که به دنبال یک مدل واحد و قابل توسعه برای نیازهای متنوع سازمانی هستند، این روش می‌تواند هزینه‌ها را کاهش و انعطاف‌پذیری را افزایش دهد — به‌ویژه در حوزه‌هایی که تعریف تابع پاداش برای RL دشوار است. در عین حال، تصمیم برای به‌کارگیری SDFT باید مبتنی بر ملاحظات عملی درباره اندازه مدل، هزینه‌های محاسباتی و نیازهای کاربردی سازمانی باشد.

منبع اصلی نتایج: مقاله منتشرشده در arXiv و گزارش تیم پژوهشی MIT / Improbable AI Lab / ETH Zurich؛ کد در GitHub و همکاری برای ادغام با Hugging Face TRL در جریان است.

تحلیل تصویر با هوش مصنوعی

MIT روش جدید تنظیم دقیق را معرفی کرد: آموزش مهارت‌های جدید به LLMها بدون از دست رفتن مهارت‌های قبلی

دیدگاه‌ خود را بنویسید لغو پاسخ