پژوهشگران دانشگاه مریلند، آزمایشگاه ملی لارنس لیورمور، دانشگاه کلمبیا و گروه TogetherAI روشی جدید برای افزایش سهبرابری توان عملیاتی مدلهای زبان معرفی کردهاند که نیازی به زیرساخت اضافی ندارد و تنها با اضافه کردن یک توکن ویژه به وزنهای مدل قابل اجراست. این نوآوری بهویژه برای گردشکارهای عاملمحور (agentic workflows) که زنجیرههای طولانی استدلال و «زنجیره تفکر»های متعدد تولید میکنند، اهمیت زیادی دارد زیرا گلوگاه پیشبینی توکن بعدی (تولید یکبهیکِ توکنها) باعث افزایش هزینه و تأخیر میشود.
مسئله چیست؟
روش مرسوم پیشبینی توکن بعدی باعث میشود برای تولید هزاران توکن، هر توکن یک گذر رو به جلو از مدل لازم داشته باشد که هزینه و زمان را بهطور چشمگیری بالا میبرد. این مشکل در مدلهای استدلالی که اغلب هزاران توکن میانی تولید میکنند برجستهتر است و تجربه کاربری را کند و پرهزینه میسازد.
ایده اصلی: پیشبینی چندتوکنی (MTP)
پیشبینی چندتوکنی (Multi-Token Prediction) چارچوبی متفاوت ارائه میدهد: بهجای پیشبینی یک توکن در هر مرحله، مدل میتواند همزمان یک بلوک از توکنها را در یک گذر تولید کند. اما آموزش استاندارد برای این روش مشکلاتی ایجاد میکند — از جمله ناسازگاری ترکیبی (تولید ترکیبهای دستوری نامناسب) و تولید تکرارهای بیمعنی در موقعیتهای دوردست جمله.
راهکار دانشجو-استاد و توکن ویژه
پژوهشگران برای رفع این مشکلات یک شیوه آموزش جدید مبتنی بر «دانشجو-استاد» ارائه کردند. در این رویکرد، مدل دانشجو بلوکهای چندتوکنی را بهصورت قطعی (deterministic) تولید میکند و یک مدل استاد قوی (اَبَر-مدل NTP) بهعنوان منتقد، آن بلوکها را ارزیابی میکند و بازخورد (یا جریمه) برای نواقص میدهد. این بازخورد دینامیک شبیه تقویت یادگیری درونخطی عمل میکند: دانشجو از تولید رُلآوتهای خود یاد میگیرد و مدل استاد از تکرارهای نابهنجار و تناقضات جلوگیری میکند.
نکته مهندسی ساده اما اثرگذار: پژوهشگران از یک خانهٔ خالی در ماتریس امبدینگ مدل بهعنوان توکن
افزایش سرعت با حفظ کیفیت: الگوریتم ConfAdapt
برای جلوگیری از افت کیفیت در زمان اجرا، محققان روش رمزگشایی تطبیقی ConfAdapt را معرفی کردند. ConfAdapt بهازای هر بلوک تولیدی، میزان اطمینان مدل را میسنجد و تنها توکنهایی را که از آستانهٔ اطمینان (مثلاً 90%) عبور میکنند، نگه میدارد. بخشهای پیشبینیپذیر و ساختاری میتوانند یکجا صادر شوند و بخشهای دشوار همچنان با پاسهای تکتک پردازش شوند؛ این ترکیب سرعت و دقت را متعادل میکند.
نتایج آزمایشی
محققان روش خود را روی مدلهای متنباز و آموزشدیدهٔ دستورمحور آزمایش کردند؛ از جمله Llama-3.1-8B-Magpie و Qwen3-4B-Instruct. با استفاده از ConfAdapt، Llama-3.1-8B به حدود 3 برابر سرعت بیشتر در تولید رسید و افت دقت زیر 3٪ در معیارهای ریاضیاتی داشت. Qwen3-4B نیز به 3 برابر سرعت با افت حدود 7٪ رسید. در تنظیمات پرشتابتر میتوان به تا پنجبرابر شتاب رسید اما با افت دقت قابلتوجهتر. پژوهشها نشان داد شتابدهی در حوزههای دیگر مانند نگارش خلاق و خلاصهسازی نیز تا حدی منتقل میشود، اما برای کارهای صنعتی تخصصی توصیه میشود مدل با نمونههای همان حوزه تطبیق (fine-tune) شود.
چطور وارد تولید شود؟
تیم پژوهشی مدلهای تطبیقشدهٔ خود را در Hugging Face منتشر کرده و بهزودی کد چارچوب MTP را نیز منتشر خواهد کرد. از دید زیرساختی، ادغام این مدلها با سرورهای نسل متن مانند vLLM یا SGLang نیازمند بازنگری یکباره در نحوهٔ batching و ذخیرهٔ KV cache است، اما پژوهشگران این تغییر را سرمایهگذاری فنی موقت و نه مانع دائمی میدانند.
نتیجهگیری
این روش نشان میدهد که میتوان بخشی از پیچیدگی بهینهسازی تأخیر را مستقیماً در وزنهای مدل جاسازی کرد — بدون نیاز به مدلهای کمکی و زیرساخت جدید. برای تیمهای مهندسی که به دنبال کاهش تأخیر و بهبود تجربهٔ تککاربره هستند، MTP همراه با ConfAdapt میتواند راهکار عملی و کمدردسری باشد؛ به شرط آنکه با نمونههای حوزهٔ هدف تطبیق داده شوند تا بهترین توازن بین سرعت و دقت بهدست آید.
