عنوان: فناوری جدید انویدیا (DMS) مصرف حافظه استدلال در مدلهای زبانی بزرگ را تا هشت برابر کاهش میدهد
خلاصه: پژوهشگران انویدیا روشی موسوم به Dynamic Memory Sparsification (DMS) معرفی کردهاند که با فشردهسازی هوشمند حافظه موقت (KV cache) در زمان استنتاج، مصرف حافظهٔ مدلهای زبانی بزرگ (LLM) را تا هشت برابر کاهش داده و همزمان توانائیهای استدلالی مدل را حفظ یا حتی بهبود میبخشد. این روش پیادهسازی سادهای دارد، با زیرساختهای مرسوم سازگار است و میتواند هزینههای سختافزاری و تاخیر سیستمهای مبتنی بر LLM را بهصورت چشمگیری کاهش دهد.
متن خبر:
یکی از محدودیتهای بزرگ در بهکارگیری عملی مدلهای زبانی برای استدلال طولانیمدت، رشد خطی حافظهٔ موقت یا همان KV cache است؛ هرچه مدل توکنهای بیشتری تولید یا بهعنوان «زنجیرهٔ استدلال» (chain-of-thought) روی آن کار کند، اندازهٔ این کش بزرگتر شده و مصرف VRAM روی GPU به سرعت افزایش مییابد. این امر نهتنها باعث افزایش تأخیر و کندی تولید میشود، بلکه ظرفیت پاسخدهی همزمان سرورها را محدود کرده و در عمل هزینهٔ پردازش را بالا میبرد.
انویدیا برای حل این مشکل رویکردی متفاوت ارائه داده است: بهجای بهکارگیری قواعد ثابت یا انتقال حافظه به حافظهٔ کندتر (paging)، DMS به مدل یاد میدهد که خودش تصمیم بگیرد کدام توکنها برای استدلال آینده حیاتیاند و کدامیک قابل حذف یا فشردهسازی هستند. نکات کلیدی این روش عبارتاند از:
- فشردهسازی هدفمند KV cache: DMS نه بهصورت نادیده گرفتن بخشی از حافظه، بلکه با ارزیابی اهمیت هر توکن، بخشهای غیرضروری را حذف یا فشرده میکند. این کار باعث میشود نویز انباشته حذف شود و متن باقیمانده کاربردیتر و مفیدتر باشد.
- بازتطبیق مدلهای پیشآموزشدیده (retrofitting): روش نیازمند آموزش مجدد کامل مدل نیست؛ بهجای آن با استفاده از چند اقدام سبک میتوان مدلهای موجود مثل Llama 3 یا Qwen را طوری تنظیم کرد که در لایههای attention خود برای هر توکن سیگنال «نگهداری/حذف» تولید کنند. پژوهشگران گزارش میدهند که این بازتطبیق تنها در حدود 1,000 گام آموزشی انجامپذیر است و برای مدلهایی مانند Qwen3-8B میتواند طی چند ساعت روی یک DGX H100 اجرا شود.
- «اخراج با تأخیر» (delayed eviction): برخلاف روشهای ساده که توکن غیرضروری را بلافاصله حذف میکنند، DMS توکنی را که قرار است حذف شود برای پنجرهٔ زمانی کوتاهی نگه میدارد تا مدل فرصت استخراج اطلاعات باقیمانده و ادغام آن در زمینه فعلی را داشته باشد. این مکانیسم بهخصوص برای توکنهایی که اطلاعات جزئی ولی پراکنی دارند حیاتی است و از حذف زودهنگام اطلاعات مفید جلوگیری میکند.
- حفظ توزیع خروجی نهایی: DMS بهجای حدسزدن اهمیت، سیاستی میآموزد که بهصراحت سعی در حفظ توزیع خروجی نهایی مدل دارد، بنابراین فشردهسازی با کمترین افت دقت یا حتی با بهبود عملکرد همراه است.
نتایج و ارزیابی:
تستهای انجامشده روی مدلهایی مانند Qwen-R1 (مشتق از DeepSeek R1) و Llama 3 نشان میدهد که DMS مرز کارایی-هزینه (Pareto frontier) را جابجا میکند. چند نتیجهٔ کلیدی عبارتاند از:
– کاهش حافظه تا حدود هشت برابر در برخی موارد و امکان افزایش عمق و عرض فرایند استدلال برای بودجهٔ حافظهٔ یکسان.
– در بنچمارکهای سخت مانند AIME 24 (مسائل ریاضی)، یک مدل Qwen-R1 32B مجهز به DMS در همان محدودیت پهنای باند حافظه 12 واحد امتیاز بیشتر نسبت به مدل استاندارد کسب کرد.
– در آزمونهای «سوزن در انبار کاه» (یافتن اطلاعات خاص در متن طولانی)، نسخههای مجهز به DMS عملکرد بهتری از مدلهای استاندارد نشان دادند؛ علت این است که مدیریت فعال حافظه از تجمع اطلاعات زائد جلوگیری میکند.
– در تجربیاتی با Qwen3-8B، DMS توانست دقت برابر با مدل پایه را حفظ کند و همزمان تا 5 برابر افزایش توان عملیاتی (throughput) ارائه دهد؛ یعنی یک سرور میتواند تا پنج برابر درخواست بیشتر را در ثانیه پاسخ دهد بدون کاهش کیفیت.
پیادهسازی و سازگاری با زیرساختها:
انویدیا DMS را در قالب کتابخانهٔ KVPress منتشر کرده و تأکید کرده که موانع ورود پایین است: اجرای اولیه با خطوط کاری (pipelines) مرسوم Hugging Face، بدون نیاز به کرنلهای CUDA سفارشی، و سازگاری کامل با FlashAttention امکانپذیر است. همچنین تیم پژوهشی اشاره کرده که DMS با معماریهای نوین مانند Multi-Head Latent Attention (MLA) نیز سازگار است و ترکیب این روشها میتواند به بهینهسازیهای بیشتر بیانجامد.
پیام برای سازمانها:
برای سازمانها و شرکتهایی که میخواهند قابلیتهای استدلالی پیچیده را با هزینهٔ معقول در مقیاس اجرا کنند، روشهایی مانند DMS مسیر عملی و اقتصادیتری ارائه میدهند. کاهش حجم KV cache نه تنها هزینهٔ سختافزار را پایین میآورد، بلکه تأخیر پاسخ را کم، ظرفیت همزمان سروها را افزایش و تجربهٔ کاربر نهایی را بهبود میبخشد.
جمعبندی:
DMS نمونهای از تحول در لایهٔ مدیریت حافظهٔ سیستمهای هوش مصنوعی است که از رویکردهای قاعدهمحور فاصله میگیرد و به مدل امکان میدهد بهصورت هوشمند و خودتنظیم حافظهٔ خود را مدیریت کند. نتایج اولیه امیدوارکننده است و نشان میدهد که میتوان بدون بازآموزی تمامعیار مدلها، کاهش چشمگیری در مصرف حافظه و هزینهٔ استنتاج حاصل کرد — تحولی مهم برای گسترش کاربردهای استدلالی مدلهای زبانی در محیطهای سازمانی و خدماتی.
