عنوان: پژوهشگران MIT، Improbable AI Lab و ETH Zurich روش جدیدی برای «یادگیری مداوم» در LLMها معرفی کردند: Self‑Distillation Fine‑Tuning (SDFT)
خلاصه: تیمی از پژوهشگران دانشگاه MIT، آزمایشگاه Improbable AI و ETH Zurich روش جدیدی به نام self‑distillation fine‑tuning (SDFT) ارائه کردهاند که به مدلهای زبان بزرگ (LLM) امکان میدهد مهارتها و دانش جدید را بیاموزند بدون آنکه دانش قبلیشان را از دست بدهند. این روش میتواند راهحلی عملی برای شرکتهایی باشد که از پراکندگی «مجموعه مدلها» (model zoo) رنج میبرند و به دنبال یک مدل یکپارچه و قابل توسعه برای کاربردهای سازمانی هستند.
متن خبر:
یکی از بزرگترین چالشهای بهکارگیری LLMها در سازمانها، مسئله «یادگیری مداوم» (continual learning) و فراموشی فاجعهبار (catastrophic forgetting) است: هنگام فاینتیون کردن برای مهارت یا دانش جدید، مدل اغلب عملکرد قبلی خود را از دست میدهد و به همین دلیل شرکتها ناچار به نگهداری چندین مدل متناسب با هر وظیفه میشوند. پژوهش جدیدی که توسط محققان MIT، Improbable AI Lab و ETH Zurich منتشر شده، روشی نوآورانه برای رفع این مشکل معرفی میکند: self‑distillation fine‑tuning یا SDFT.
چیست و چگونه کار میکند؟
SDFT ترکیبی از ایدههای یادگیری درونحوزهای (in‑context learning یا ICL)، distillation و فاینتیون است. در این روش، در طول فرایند آموزش یک مدل در دو نقش بهکار گرفته میشود:
– معلم (Teacher): نسخهای ثابتشده از مدل که پرسش همراه با نمونههای کارشناسی (demonstrations) را دریافت میکند و با استفاده از قابلیت ICL پاسخ و منطق استدلالی را استخراج میکند.
– شاگرد (Student): نسخهای از مدل که فقط پرسش را میبیند (شبیهسازی وضعیت عملیاتی واقعی). شاگرد پاسخ میدهد و سپس معلم با دسترسی به نمونههای کارشناسی بازخوردی ارائه میکند. شاگرد پارامترهای خود را برای نزدیکتر شدن به توزیع معلم بهروزرسانی میکند.
این چرخه عملا یک حلقه یادگیری «on‑policy» شبیه به روشهای تقویتی ایجاد میکند اما بدون نیاز به تعریف یک تابع پاداش صریح. بهجای آموزش صرفاً از دادههای ثابت (off‑policy) مانند SFT معمولی، مدل از تعاملات خود و بازخورد درونمدلی برای اصلاح مسیرهای استدلال استفاده میکند.
نتایج تجربی و مقایسه با روشهای مرسوم
محققان SDFT را روی مدل متنباز Qwen 2.5 و در سه مهارت سنگین سازمانی آزمایش کردند: پرسشوپاسخ علمی، استفاده از ابزارهای نرمافزاری و استدلال پزشکی. نکات کلیدی نتایج:
– در بنچمارک Science Q&A، مدل SDFT به دقت 70.2% رسید در برابر 66.2% برای فاینتیون نظارتشده (SFT).
– هنگام افزودن مهارت علمی، مدل SFT توانایی پاسخ به پرسشهای عمومی (منطق، علوم انسانی) را بهشدت از دست داد؛ در حالی که مدل SDFT ضمن افزایش مهارت علمی، نمره بخش «وظایف قبلی» را پایدار نگه داشت (حدود 64.5%).
– در آزمایشی برای «تزریق دانش» فرضی (مثلاً حوادث طبیعی 2025) مدل SDFT توانست دانش جدید را نه تنها بهصورت حفظی بلکه بهصورت استدلالی بهکار بندد و در پرسشهای استنتاجی تا 98% موفقیت نشان داد، در حالی که SFT صرفاً حقایق را حفظ کرده اما در استدلال ضعیف بود.
– در سناریوی یادگیری ترتیبی (علم → ابزارها → پزشکی)، مدلهای SFT دچار نوسان و افت مهارتهای قبلی شدند، اما SDFT توانست مهارتها را تجمیع کرده و بدون پسروی حفظ کند.
منافع برای شرکتها
– کاهش نیاز به «مزرعه مدلها» (model zoo): سازمانها میتوانند بهجای نگهداری چندین مدل تفصیلی برای هر دپارتمان، یک مدل واحد داشته باشند که به مرور چندین مهارت را افزوده و دانش اختصاصی شرکت را کسب میکند.
– صرفهجویی در هزینههای استنتاج (inference): بازدهی و یکپارچهسازی مدلها میتواند هزینههای میزبانی و نگهداری را کاهش دهد.
– مناسب برای وظایفی که تعریف تابع پاداش ریاضی دشوار یا غیرممکن است، مانند نگارش پروندههای حقوقی یا خلاصهسازی جلسات.
محدودیتها و ملاحظات عملی
– نیاز به مدلهایی با توانایی قوی ICL: فعلاً مدلهایی با حدود 4 میلیارد پارامتر یا بیشتر (با معماریهای جدید مانند Qwen 3) عملکرد مطلوبی نشان دادهاند، اگرچه تیم انتظار دارد مدلهای ~1B در آینده نزدیک برای SDFT مناسب شوند.
– هزینه محاسباتی بیشتر: SDFT به دلیل تولید پاسخهای درونآموزشی (rollouts) در طول آموزش، تقریباً 2.5 برابر FLOP بیشتری نیاز دارد و در عمل حدود چهار برابر کندتر از فاینتیون معمولی است. با این حال، نگهداری بهتر دانش میتواند نیاز به چندین مرحله بازآموزی پرهزینه را کاهش دهد.
– وابستگی به توانایی مدل در نقش «معلمِ خود»: مدلهای خیلی کوچک در ابتدا قادر به تولید سیگنال درست بهعنوان معلم نبودند، اما پیشرفت سریع مدلهای کوچکتر این مانع را در حال کاهش است.
دسترسپذیری و ادغام در جریانهای کاری سازمانی
کد SDFT روی GitHub منتشر شده و آماده ادغام در جریانهای آموزش مدل موجود است. تیم توسعه درحال همکاری با Hugging Face برای افزودن SDFT به کتابخانه Transformer Reinforcement Learning (TRL) است و یک pull request نیز برای آزمایش و یکپارچهسازی باز است. این امر به تیمهای توسعه اجازه میدهد SDFT را در کارتابلهای آموزشی فعلی خود پیادهسازی و آزمون کنند.
جمعبندی
SDFT راهحلی عملی و نوآورانه برای مشکل مهم یادگیری مداوم در LLMها ارائه میدهد: امکان یادگیری مهارتها و دانش جدید بهصورت ترتیبی بدون از دست دادن قابلیتهای قبلی. برای شرکتهایی که به دنبال یک مدل واحد و قابل توسعه برای نیازهای متنوع سازمانی هستند، این روش میتواند هزینهها را کاهش و انعطافپذیری را افزایش دهد — بهویژه در حوزههایی که تعریف تابع پاداش برای RL دشوار است. در عین حال، تصمیم برای بهکارگیری SDFT باید مبتنی بر ملاحظات عملی درباره اندازه مدل، هزینههای محاسباتی و نیازهای کاربردی سازمانی باشد.
منبع اصلی نتایج: مقاله منتشرشده در arXiv و گزارش تیم پژوهشی MIT / Improbable AI Lab / ETH Zurich؛ کد در GitHub و همکاری برای ادغام با Hugging Face TRL در جریان است.
