افزایش سه‌برابری سرعت استنتاج در وزن‌های مدل‌های زبان بزرگ بدون رمزگشایی احتمالی

پژوهشگران دانشگاه مریلند، آزمایشگاه ملی لارنس لیورمور، دانشگاه کلمبیا و گروه TogetherAI روشی جدید برای افزایش سه‌برابری توان عملیاتی مدل‌های زبان معرفی کرده‌اند که نیازی به زیرساخت اضافی ندارد و تنها با اضافه کردن یک توکن ویژه به وزن‌های مدل قابل اجراست. این نوآوری به‌ویژه برای گردش‌کارهای عامل‌محور (agentic workflows) که زنجیره‌های طولانی استدلال و «زنجیره تفکر»های متعدد تولید می‌کنند، اهمیت زیادی دارد زیرا گلوگاه پیش‌بینی توکن بعدی (تولید یک‌به‌یکِ توکن‌ها) باعث افزایش هزینه و تأخیر می‌شود.

مسئله چیست؟
روش مرسوم پیش‌بینی توکن بعدی باعث می‌شود برای تولید هزاران توکن، هر توکن یک گذر رو به جلو از مدل لازم داشته باشد که هزینه و زمان را به‌طور چشمگیری بالا می‌برد. این مشکل در مدل‌های استدلالی که اغلب هزاران توکن میانی تولید می‌کنند برجسته‌تر است و تجربه کاربری را کند و پرهزینه می‌سازد.

ایده اصلی: پیش‌بینی چندتوکنی (MTP)
پیش‌بینی چندتوکنی (Multi-Token Prediction) چارچوبی متفاوت ارائه می‌دهد: به‌جای پیش‌بینی یک توکن در هر مرحله، مدل می‌تواند هم‌زمان یک بلوک از توکن‌ها را در یک گذر تولید کند. اما آموزش استاندارد برای این روش مشکلاتی ایجاد می‌کند — از جمله ناسازگاری ترکیبی (تولید ترکیب‌های دستوری نامناسب) و تولید تکرارهای بی‌معنی در موقعیت‌های دوردست جمله.

راهکار دانشجو-استاد و توکن ویژه
پژوهشگران برای رفع این مشکلات یک شیوه آموزش جدید مبتنی بر «دانشجو-استاد» ارائه کردند. در این رویکرد، مدل دانشجو بلوک‌های چندتوکنی را به‌صورت قطعی (deterministic) تولید می‌کند و یک مدل استاد قوی (اَبَر-مدل NTP) به‌عنوان منتقد، آن بلوک‌ها را ارزیابی می‌کند و بازخورد (یا جریمه) برای نواقص می‌دهد. این بازخورد دینامیک شبیه تقویت یادگیری درون‌خطی عمل می‌کند: دانشجو از تولید رُل‌آوت‌های خود یاد می‌گیرد و مدل استاد از تکرارهای نابهنجار و تناقضات جلوگیری می‌کند.

نکته مهندسی ساده اما اثرگذار: پژوهشگران از یک خانهٔ خالی در ماتریس امبدینگ مدل به‌عنوان توکن استفاده کردند؛ بدین ترتیب بدون دستکاری معماری (مثلاً توجه پنجره‌ای یا لایه‌های خاص) عملیات ترتیبی به موازی تبدیل می‌شود. این سادگی به تیم‌های مهندسی اجازه می‌دهد مدل‌های تولیدی را بدون بازسازی کامل زنجیره‌ابزارها به‌روزرسانی کنند.

افزایش سرعت با حفظ کیفیت: الگوریتم ConfAdapt
برای جلوگیری از افت کیفیت در زمان اجرا، محققان روش رمزگشایی تطبیقی ConfAdapt را معرفی کردند. ConfAdapt به‌ازای هر بلوک تولیدی، میزان اطمینان مدل را می‌سنجد و تنها توکن‌هایی را که از آستانهٔ اطمینان (مثلاً 90%) عبور می‌کنند، نگه می‌دارد. بخش‌های پیش‌بینی‌پذیر و ساختاری می‌توانند یک‌جا صادر شوند و بخش‌های دشوار همچنان با پاس‌های تک‌تک پردازش شوند؛ این ترکیب سرعت و دقت را متعادل می‌کند.

نتایج آزمایشی
محققان روش خود را روی مدل‌های متن‌باز و آموزش‌دیدهٔ دستورمحور آزمایش کردند؛ از جمله Llama-3.1-8B-Magpie و Qwen3-4B-Instruct. با استفاده از ConfAdapt، Llama-3.1-8B به حدود 3 برابر سرعت بیشتر در تولید رسید و افت دقت زیر 3٪ در معیارهای ریاضیاتی داشت. Qwen3-4B نیز به 3 برابر سرعت با افت حدود 7٪ رسید. در تنظیمات پرشتاب‌تر می‌توان به تا پنج‌برابر شتاب رسید اما با افت دقت قابل‌توجه‌تر. پژوهش‌ها نشان داد شتاب‌دهی در حوزه‌های دیگر مانند نگارش خلاق و خلاصه‌سازی نیز تا حدی منتقل می‌شود، اما برای کارهای صنعتی تخصصی توصیه می‌شود مدل با نمونه‌های همان حوزه تطبیق (fine-tune) شود.

چطور وارد تولید شود؟
تیم پژوهشی مدل‌های تطبیق‌شدهٔ خود را در Hugging Face منتشر کرده و به‌زودی کد چارچوب MTP را نیز منتشر خواهد کرد. از دید زیرساختی، ادغام این مدل‌ها با سرورهای نسل متن مانند vLLM یا SGLang نیازمند بازنگری یک‌باره در نحوهٔ batching و ذخیرهٔ KV cache است، اما پژوهشگران این تغییر را سرمایه‌گذاری فنی موقت و نه مانع دائمی می‌دانند.

نتیجه‌گیری
این روش نشان می‌دهد که می‌توان بخشی از پیچیدگی بهینه‌سازی تأخیر را مستقیماً در وزن‌های مدل جاسازی کرد — بدون نیاز به مدل‌های کمکی و زیرساخت جدید. برای تیم‌های مهندسی که به دنبال کاهش تأخیر و بهبود تجربهٔ تک‌کاربره هستند، MTP همراه با ConfAdapt می‌تواند راهکار عملی و کم‌دردسری باشد؛ به شرط آنکه با نمونه‌های حوزهٔ هدف تطبیق داده شوند تا بهترین توازن بین سرعت و دقت به‌دست آید.

دستیار هوش مصنوعی

افزایش سه‌برابری سرعت استنتاج در وزن‌های مدل‌های زبان بزرگ بدون رمزگشایی احتمالی

دیدگاه‌ خود را بنویسید لغو پاسخ