GEPA: بهینه‌سازی مدل‌های زبانی بزرگ (LLM) بدون یادگیری تقویتی پرهزینه

عنوان: معرفی GEPA؛ روش جدید بهینه‌سازی پرامپت که LLMها را سریع‌تر، ارزان‌تر و دقیق‌تر می‌کند

خلاصه: پژوهشگران دانشگاه کالیفرنیا برکلی، دانشگاه استنفورد و شرکت Databricks یک روش جدید بهینه‌سازی به نام GEPA (Genetic-Pareto) معرفی کرده‌اند که در مقایسه با روش‌های مبتنی بر تقویت یادگیری (RL) برای سازگارسازی مدل‌های زبانی بزرگ (LLM) با وظایف تخصصی، دقت بالاتر و کارایی بسیار بیشتری نشان می‌دهد. GEPA با جایگزینی امتیازهای عددی ساده با بازخوردهای متنی غنی و فرایندی شبیه به تکامل ژنتیکی پرامپت‌ها، تا 35 برابر به نمونه‌های آزمایشی (rollouts) کمتری نیاز دارد و هزینه‌های محاسباتی را به‌طور چشمگیری کاهش می‌دهد.

چرا GEPA مهم است؟
– روش‌های رایج RL مانند GRPO که در مدل‌های استدلالیِ مشهور استفاده می‌شوند، سیستم را به‌صورت جعبه‌سیاه می‌پذیرند و تنها از یک امتیاز اسکالر برای هدایت یادگیری بهره می‌برند. این رویکرد نمونه‌گرایی ناکارآمدی دارد و معمولاً به ده‌ها تا صدها هزار اجرای آزمایشی نیازمند است که برای کاربردهای واقعی با تماس‌های پرهزینه به ابزارها یا مدل‌های اختصاصی مقرون‌به‌صرفه نیست.
– GEPA هدف خود را روی استخراج حداکثری سیگنال یادگیری از هر اجرای پرهزینه قرار داده و برای تنظیم سیستم‌های ترکیبی و ماژولارِ LLM در شرایط داده کم یا بودجه محدود طراحی شده است.

روش‌شناسی GEPA: سه محور اصلی
1. تکامل ژنتیکی پرامپت (Genetic Prompt Evolution)
– GEPA مجموعه‌ای از پرامپت‌ها را مانند یک جمعیت ژنتیکی در نظر می‌گیرد و با اعمال جهش‌های هدف‌مند نسخه‌های جدیدی تولید می‌کند تا فضای راه‌حل‌ها را کاوش کند.

بازتاب و بازخورد به زبان طبیعی (Reflection with Natural Language Feedback)
به‌جای امتیازهای عددی، GEPA کل ردعمل اجرای سیستم — شامل گام‌های استدلال، فراخوانی ابزارها و پیام‌های خطا — را به صورت متنی در اختیار یک LLM قرار می‌دهد تا آن را تحلیل و تشخیص‌گذاری کند. سپس LLM بر اساس این تحلیل پرامپتی اصلاح‌شده و دقیق‌تر تولید می‌کند (مثلاً تشخیص می‌دهد که باید نسخه خاصی از یک کتابخانه در پرامپت مشخص شود).
گزینش مبتنی بر پارتو (Pareto-based Selection)
به جای انتخاب تنها بهترین پرامپت کلی، GEPA فهرستی از پرامپت‌های «متخصص» را نگه می‌دارد که در نمونه‌های مختلف عملکرد برتری نشان داده‌اند. این رویکرد از گیر افتادن در بهینه‌های محلی جلوگیری می‌کند و تنوع راه‌حل‌ها را افزایش می‌دهد تا تعمیم‌پذیری بهبود یابد.

بازدهی و نتایج تجربی
– ارزیابی‌ها در چهار وظیفه متفاوت از جمله سوال‌پرسش چند-پریدگی (HotpotQA) و پرس‌وجوهای حفظ حریم خصوصی (PUPA) انجام شد.
– مدل‌های مورد آزمایش شامل یک مدل متن‌باز (Qwen3 8B) و نسخه‌ای از GPT (GPT-4.1 mini) بودند. GEPA با روش‌های متداول مانند GRPO و بهینه‌ساز پیشرفته MIPROv2 مقایسه شد.
– نتایج کلیدی: GEPA تا 19% امتیاز بالاتر نسبت به GRPO در برخی وظایف کسب کرد و در عین حال با استفاده از تا 35 برابر اجرای آزمایشی کمتر، همان یا بهتر از رقبا عمل نمود.
– نمونه‌ای عینی: بهینه‌سازی یک سیستم پاسخ‌گویی در حدود 3 ساعت با GEPA انجام شد، در حالی که GRPO به 24 ساعت نیاز داشت (حدود 8 برابر سریع‌تر). هزینه محاسباتی در آزمایش‌ها از تقریباً 300 دلار برای RL به کمتر از 20 دلار با GEPA کاهش یافت (بیش از 15 برابر صرفه‌جویی).

مزایای عملی برای شرکت‌ها
– کاهش هزینه و زمان توسعه: برای سازمان‌هایی که از مدل‌های قدرتمند و پرهزینه یا فراخوانی ابزارهای خارجی استفاده می‌کنند، کاهش تعداد رول‌اوت‌ها به‌معنای صرفه‌جویی واقعی در هزینه‌های GPU و هزینه‌های API است.
– افزایش پایداری و تعمیم‌پذیری: سیستم‌های بهینه‌شده با GEPA شکاف تعمیم (generalization gap) کمتری نشان دادند که به معنی مقاومت بهتر در مقابل داده‌های جدید و کاهش شکنندگی در کاربردهای مشتری‌محور است.
– پرامپت‌های کوتاه‌تر و سریع‌تر: پرامپت‌های تولیدشده توسط GEPA تا 9.2 برابر کوتاه‌تر از نمونه‌های مبتنی بر few-shot بودند؛ این کاهش طول منجر به کاهش تأخیر و هزینه‌های استنتاج می‌شود.
– کاربرد در CI/CD و استنتاج زمان-اجرای (inference-time): GEPA می‌تواند در فرآیندهای پیوسته توسعه نرم‌افزار ترکیب شود؛ به‌عنوان مثال، پس از هر commit کد، نسخه‌های پرامپت‌ بهینه تولید و آزمایش شده و بهترین نسخه برای بازبینی مهندسان پیشنهاد شود. در آزمایش‌های تولید کد CUDA، GEPA عملکرد را در 20% از وظایف به سطح متخصصان رساند، در حالی که پاسخ تک‌شات GPT-4o در این موارد موفق نبود.

ملاحظات و چشم‌انداز
– GEPA گامی مهم در جهت تحول پارادایم بهینه‌سازی سیستم‌های ترکیبی مبتنی بر LLM است و می‌تواند به سازمان‌هایی اجازه دهد که بدون دانش عمیق RL به بهینه‌سازی‌های پیشرفته دست یابند.
– محققان تأکید دارند که کلید موفقیت، «مهندسی بازخورد» است: استخراج و ساختاربندی جزئیات متنی از اجراهای سیستم که قبلاً به‌سادگی به یک عدد خلاصه می‌شدند.

نتیجه‌گیری
GEPA نشان می‌دهد که جایگزینی پاداش‌های اسکالر با بازخوردهای زبان‌محور و بهره‌گیری از سازوکارهای تکاملی و انتخاب پارتویی می‌تواند بهبود قابل‌توجهی در کارایی، هزینه و تعمیم‌پذیری سیستم‌های مبتنی بر LLM ایجاد کند. برای شرکت‌هایی که به‌دنبال توسعه هوش مصنوعی سازمانی پیچیده و مقرون‌به‌صرفه هستند، GEPA نوید کاهش چشمگیر هزینه‌ها، تسریع چرخه توسعه و تولید اپلیکیشن‌های پایاتر را می‌دهد. پژوهشگران از UC Berkeley، Stanford و Databricks این روش را به‌عنوان گامی بنیادین در مسیر در دسترس‌پذیرتر کردن بهینه‌سازی برای صاحبان دانش دامنه معرفی کرده‌اند.

تبدیل گفتار به نوشتار فارسی

GEPA: بهینه‌سازی مدل‌های زبانی بزرگ (LLM) بدون یادگیری تقویتی پرهزینه

دیدگاه‌ خود را بنویسید لغو پاسخ