انویدیا با تکنیک جدید هزینه استدلال مدل‌های زبانی بزرگ (LLM) را ۸ برابر کاهش داد

عنوان: فناوری جدید انویدیا (DMS) مصرف حافظه استدلال در مدل‌های زبانی بزرگ را تا هشت برابر کاهش می‌دهد

خلاصه: پژوهشگران انویدیا روشی موسوم به Dynamic Memory Sparsification (DMS) معرفی کرده‌اند که با فشرده‌سازی هوشمند حافظه موقت (KV cache) در زمان استنتاج، مصرف حافظهٔ مدل‌های زبانی بزرگ (LLM) را تا هشت برابر کاهش داده و هم‌زمان توانائی‌های استدلالی مدل را حفظ یا حتی بهبود می‌بخشد. این روش پیاده‌سازی ساده‌ای دارد، با زیرساخت‌های مرسوم سازگار است و می‌تواند هزینه‌های سخت‌افزاری و تاخیر سیستم‌های مبتنی بر LLM را به‌صورت چشمگیری کاهش دهد.

متن خبر:
یکی از محدودیت‌های بزرگ در به‌کارگیری عملی مدل‌های زبانی برای استدلال طولانی‌مدت، رشد خطی حافظهٔ موقت یا همان KV cache است؛ هرچه مدل توکن‌های بیشتری تولید یا به‌عنوان «زنجیرهٔ استدلال» (chain-of-thought) روی آن کار کند، اندازهٔ این کش بزرگ‌تر شده و مصرف VRAM روی GPU به سرعت افزایش می‌یابد. این امر نه‌تنها باعث افزایش تأخیر و کندی تولید می‌شود، بلکه ظرفیت پاسخ‌دهی هم‌زمان سرورها را محدود کرده و در عمل هزینهٔ پردازش را بالا می‌برد.

انویدیا برای حل این مشکل رویکردی متفاوت ارائه داده است: به‌جای به‌کارگیری قواعد ثابت یا انتقال حافظه به حافظهٔ کندتر (paging)، DMS به مدل یاد می‌دهد که خودش تصمیم بگیرد کدام توکن‌ها برای استدلال آینده حیاتی‌اند و کدام‌یک قابل حذف یا فشرده‌سازی هستند. نکات کلیدی این روش عبارت‌اند از:

فشرده‌سازی هدف‌مند KV cache: DMS نه به‌صورت نادیده گرفتن بخشی از حافظه، بلکه با ارزیابی اهمیت هر توکن، بخش‌های غیرضروری را حذف یا فشرده می‌کند. این کار باعث می‌شود نویز انباشته حذف شود و متن باقی‌مانده کاربردی‌تر و مفیدتر باشد.
بازتطبیق مدل‌های پیش‌آموزش‌دیده (retrofitting): روش نیازمند آموزش مجدد کامل مدل نیست؛ به‌جای آن با استفاده از چند اقدام سبک می‌توان مدل‌های موجود مثل Llama 3 یا Qwen را طوری تنظیم کرد که در لایه‌های attention خود برای هر توکن سیگنال «نگهداری/حذف» تولید کنند. پژوهشگران گزارش می‌دهند که این بازتطبیق تنها در حدود 1,000 گام آموزشی انجام‌پذیر است و برای مدل‌هایی مانند Qwen3-8B می‌تواند طی چند ساعت روی یک DGX H100 اجرا شود.
«اخراج با تأخیر» (delayed eviction): برخلاف روش‌های ساده که توکن غیرضروری را بلافاصله حذف می‌کنند، DMS توکنی را که قرار است حذف شود برای پنجرهٔ زمانی کوتاهی نگه می‌دارد تا مدل فرصت استخراج اطلاعات باقیمانده و ادغام آن در زمینه فعلی را داشته باشد. این مکانیسم به‌خصوص برای توکن‌هایی که اطلاعات جزئی ولی پراکنی دارند حیاتی است و از حذف زودهنگام اطلاعات مفید جلوگیری می‌کند.
حفظ توزیع خروجی نهایی: DMS به‌جای حدس‌زدن اهمیت، سیاستی می‌آموزد که به‌صراحت سعی در حفظ توزیع خروجی نهایی مدل دارد، بنابراین فشرده‌سازی با کمترین افت دقت یا حتی با بهبود عملکرد همراه است.

نتایج و ارزیابی:
تست‌های انجام‌شده روی مدل‌هایی مانند Qwen-R1 (مشتق از DeepSeek R1) و Llama 3 نشان می‌دهد که DMS مرز کارایی-هزینه (Pareto frontier) را جابجا می‌کند. چند نتیجهٔ کلیدی عبارت‌اند از:
– کاهش حافظه تا حدود هشت برابر در برخی موارد و امکان افزایش عمق و عرض فرایند استدلال برای بودجهٔ حافظهٔ یکسان.
– در بنچ‌مارک‌های سخت مانند AIME 24 (مسائل ریاضی)، یک مدل Qwen-R1 32B مجهز به DMS در همان محدودیت پهنای باند حافظه 12 واحد امتیاز بیشتر نسبت به مدل استاندارد کسب کرد.
– در آزمون‌های «سوزن در انبار کاه» (یافتن اطلاعات خاص در متن طولانی)، نسخه‌های مجهز به DMS عملکرد بهتری از مدل‌های استاندارد نشان دادند؛ علت این است که مدیریت فعال حافظه از تجمع اطلاعات زائد جلوگیری می‌کند.
– در تجربیاتی با Qwen3-8B، DMS توانست دقت برابر با مدل پایه را حفظ کند و هم‌زمان تا 5 برابر افزایش توان عملیاتی (throughput) ارائه دهد؛ یعنی یک سرور می‌تواند تا پنج برابر درخواست بیشتر را در ثانیه پاسخ دهد بدون کاهش کیفیت.

پیاده‌سازی و سازگاری با زیرساخت‌ها:
انویدیا DMS را در قالب کتابخانهٔ KVPress منتشر کرده و تأکید کرده که موانع ورود پایین است: اجرای اولیه با خطوط کاری (pipelines) مرسوم Hugging Face، بدون نیاز به کرنل‌های CUDA سفارشی، و سازگاری کامل با FlashAttention امکان‌پذیر است. همچنین تیم پژوهشی اشاره کرده که DMS با معماری‌های نوین مانند Multi-Head Latent Attention (MLA) نیز سازگار است و ترکیب این روش‌ها می‌تواند به بهینه‌سازی‌های بیشتر بیانجامد.

پیام برای سازمان‌ها:
برای سازمان‌ها و شرکت‌هایی که می‌خواهند قابلیت‌های استدلالی پیچیده را با هزینهٔ معقول در مقیاس اجرا کنند، روش‌هایی مانند DMS مسیر عملی و اقتصادی‌تری ارائه می‌دهند. کاهش حجم KV cache نه تنها هزینهٔ سخت‌افزار را پایین می‌آورد، بلکه تأخیر پاسخ را کم، ظرفیت هم‌زمان سروها را افزایش و تجربهٔ کاربر نهایی را بهبود می‌بخشد.

جمع‌بندی:
DMS نمونه‌ای از تحول در لایهٔ مدیریت حافظهٔ سیستم‌های هوش مصنوعی است که از رویکردهای قاعده‌محور فاصله می‌گیرد و به مدل امکان می‌دهد به‌صورت هوشمند و خودتنظیم حافظهٔ خود را مدیریت کند. نتایج اولیه امیدوارکننده است و نشان می‌دهد که می‌توان بدون بازآموزی تمام‌عیار مدل‌ها، کاهش چشمگیری در مصرف حافظه و هزینهٔ استنتاج حاصل کرد — تحولی مهم برای گسترش کاربردهای استدلالی مدل‌های زبانی در محیط‌های سازمانی و خدماتی.

چت آنلاین با هوش مصنوعی

انویدیا با تکنیک جدید هزینه استدلال مدل‌های زبانی بزرگ (LLM) را ۸ برابر کاهش داد — بدون افت دقت

دیدگاه‌ خود را بنویسید لغو پاسخ