محققان مؤسسه KAIST و Milaha به تازگی یک معماری جدید ترنسفورمر را معرفی کردهاند که به بهینهسازی عملکرد مدلهای زبان بزرگ (LLMs) کمک میکند. این معماری که “ترکیب بازگشتها” (Mixture-of-Recursions یا MoR) نامیده میشود، به طور چشمگیری دقت مدل را افزایش میدهد و توان پردازش بیشتری نسبت به ترنسفورمرهای سنتی ارائه میدهد، حتی با وجود محدودیت در تعداد پارامترها و بودجه محاسباتی.
قابلیتهای شگفتانگیز LLMها به اندازه روزافزون آنها وابسته است، اما افزایش اندازه این مدلها منجر به چالشهای جدی در زمینه حافظه و نیازهای محاسباتی میشود که آموزش و پیادهسازی آنها را برای سازمانها خارج از مراکز دادههای بزرگ مشکل میسازد. به همین دلیل، جستجو برای طراحیهای بهینهتر ادامه دارد.
بهبود کارایی LLMها عمدتاً در دو روش متمرکز شده است: اشتراکگذاری پارامترها و محاسبات تطبیقی. تکنیکهای اشتراکگذاری پارامترها با بازاستفاده از وزنها در بخشهای مختلف مدل، تعداد کل پارامترهای منحصر به فرد را کاهش میدهند و پیچیدگی محاسباتی را کمتر میکنند. به عنوان مثال، تکنیک “بسترسازی لایهها” (layer tying) پارامترهای یک مدل را در چندین لایه مجدداً استفاده میکند. از سوی دیگر، روشهای محاسبات تطبیقی، مدلها را به گونهای تنظیم میکنند که تنها از منابع پردازش لازم استفاده کنند. به عنوان مثال، “خروج زودهنگام” به طور پویا منابع پردازش را تخصیص میدهد و به مدل اجازه میدهد تا پردازش توکنهای “سادهتر” را زودتر متوقف کند.
معماری MoR با ترکیب اشتراکگذاری پارامترها و محاسبات تطبیقی به پاسخگویی به تقاضاهای بالای محاسباتی LLMها پرداخته و بر مبنای مفهوم ترنسفورمرهای بازگشتی بنا شده است. این مدلها لایههای مشترکی را چندین بار بهکار میبرند، به جای اینکه از یک انبوه از لایههای منحصر به فرد استفاده کنند.
دو مؤلفه کلیدی MoR شامل یک مسیریاب سبکوزن است که به طور هوشمند عمق بازگشت خاصی را به هر توکن اختصاص میدهد و همچنین یک استراتژی کشگذاری کلید-مقدار (KV) کارآمدتر، که تنها برای توکنهای فعال در هر مرحله بازگشتی کلید-مقدارها را ذخیره و بازیابی میکند.
تحقیقات نشان میدهد که مدلهای MoR نسبت به مدلهای سنتی در معیارهای دقت و حفظ محاسباتی به نتایج بهتری دست یافتهاند. به عنوان مثال، هنگامی که در رژیمی با بودجه آموزشی برابر آموزش دیده اند، یک مدل MoR دقت بیشتری نسبت به مدلهای سنتی با پارامترهای کمتر نشان داده است.
این معماری نه تنها مقیاسپذیر است، بلکه عملکرد آن در فرآیندهای استنتاج نیز بهبود یافته است. این به معنای کاهش هزینههای عملیاتی برای شرکتها خواهد بود. بر اساس نظرات محققان، با کاهش اندازه پارامترهای مدل و حجم کشگذاری KV، توانایی پردازش توکنهای بیشتری به صورت همزمان امکانپذیر میشود.
در نهایت، MoR به دلیل طبیعت بدون وابستگی به نوع داده (modality-agnostic) خود، قابلیت گسترش به سناریوهای چندرسانهای را فراهم میآورد و میتواند کارایی بسیار خوبی در پردازش ویدئو، صدا و دیگر انواع دادههای پیچیده ایجاد کند. با توجه به پتانسیل بسیار زیاد این فناوری، انتظار میرود که طیف وسیعتری از برنامههای هوش مصنوعی در سطوح مختلف کسب و کارها مورد استفاده قرار گیرد.