محققان مؤسسه KAIST و Milaha به تازگی یک معماری جدید ترنسفورمر را معرفی کرده‌اند که به بهینه‌سازی عملکرد مدل‌های زبان بزرگ (LLMs) کمک می‌کند. این معماری که “ترکیب بازگشت‌ها” (Mixture-of-Recursions یا MoR) نامیده می‌شود، به طور چشمگیری دقت مدل را افزایش می‌دهد و توان پردازش بیشتری نسبت به ترنسفورمرهای سنتی ارائه می‌دهد، حتی با وجود محدودیت در تعداد پارامترها و بودجه محاسباتی.

قابلیت‌های شگفت‌انگیز LLMها به اندازه روزافزون آن‌ها وابسته است، اما افزایش اندازه این مدل‌ها منجر به چالش‌های جدی در زمینه حافظه و نیازهای محاسباتی می‌شود که آموزش و پیاده‌سازی آن‌ها را برای سازمان‌ها خارج از مراکز داده‌های بزرگ مشکل می‌سازد. به همین دلیل، جستجو برای طراحی‌های بهینه‌تر ادامه دارد.

بهبود کارایی LLMها عمدتاً در دو روش متمرکز شده است: اشتراک‌گذاری پارامترها و محاسبات تطبیقی. تکنیک‌های اشتراک‌گذاری پارامترها با بازاستفاده از وزن‌ها در بخش‌های مختلف مدل، تعداد کل پارامترهای منحصر به فرد را کاهش می‌دهند و پیچیدگی محاسباتی را کمتر می‌کنند. به عنوان مثال، تکنیک “بسترسازی لایه‌ها” (layer tying) پارامترهای یک مدل را در چندین لایه مجدداً استفاده می‌کند. از سوی دیگر، روش‌های محاسبات تطبیقی، مدل‌ها را به گونه‌ای تنظیم می‌کنند که تنها از منابع پردازش لازم استفاده کنند. به عنوان مثال، “خروج زودهنگام” به طور پویا منابع پردازش را تخصیص می‌دهد و به مدل اجازه می‌دهد تا پردازش توکن‌های “ساده‌تر” را زودتر متوقف کند.

معماری MoR با ترکیب اشتراک‌گذاری پارامترها و محاسبات تطبیقی به پاسخگویی به تقاضاهای بالای محاسباتی LLMها پرداخته و بر مبنای مفهوم ترنسفورمرهای بازگشتی بنا شده است. این مدل‌ها لایه‌های مشترکی را چندین بار به‌کار می‌برند، به جای اینکه از یک انبوه از لایه‌های منحصر به فرد استفاده کنند.

دو مؤلفه کلیدی MoR شامل یک مسیریاب سبک‌وزن است که به طور هوشمند عمق بازگشت خاصی را به هر توکن اختصاص می‌دهد و همچنین یک استراتژی کش‌گذاری کلید-مقدار (KV) کارآمدتر، که تنها برای توکن‌های فعال در هر مرحله بازگشتی کلید-مقدارها را ذخیره و بازیابی می‌کند.

تحقیقات نشان می‌دهد که مدل‌های MoR نسبت به مدل‌های سنتی در معیارهای دقت و حفظ محاسباتی به نتایج بهتری دست یافته‌اند. به عنوان مثال، هنگامی که در رژیمی با بودجه آموزشی برابر آموزش دیده اند، یک مدل MoR دقت بیشتری نسبت به مدل‌های سنتی با پارامترهای کمتر نشان داده است.

این معماری نه تنها مقیاس‌پذیر است، بلکه عملکرد آن در فرآیندهای استنتاج نیز بهبود یافته است. این به معنای کاهش هزینه‌های عملیاتی برای شرکت‌ها خواهد بود. بر اساس نظرات محققان، با کاهش اندازه پارامترهای مدل و حجم کش‌گذاری KV، توانایی پردازش توکن‌های بیشتری به صورت همزمان امکان‌پذیر می‌شود.

در نهایت، MoR به دلیل طبیعت بدون وابستگی به نوع داده (modality-agnostic) خود، قابلیت گسترش به سناریوهای چندرسانه‌ای را فراهم می‌آورد و می‌تواند کارایی بسیار خوبی در پردازش ویدئو، صدا و دیگر انواع داده‌های پیچیده ایجاد کند. با توجه به پتانسیل بسیار زیاد این فناوری، انتظار می‌رود که طیف وسیع‌تری از برنامه‌های هوش مصنوعی در سطوح مختلف کسب و کارها مورد استفاده قرار گیرد.

تبدیل گفتار به نوشتار فارسی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا