عنوان: معرفی GEPA؛ روش جدید بهینهسازی پرامپت که LLMها را سریعتر، ارزانتر و دقیقتر میکند
خلاصه: پژوهشگران دانشگاه کالیفرنیا برکلی، دانشگاه استنفورد و شرکت Databricks یک روش جدید بهینهسازی به نام GEPA (Genetic-Pareto) معرفی کردهاند که در مقایسه با روشهای مبتنی بر تقویت یادگیری (RL) برای سازگارسازی مدلهای زبانی بزرگ (LLM) با وظایف تخصصی، دقت بالاتر و کارایی بسیار بیشتری نشان میدهد. GEPA با جایگزینی امتیازهای عددی ساده با بازخوردهای متنی غنی و فرایندی شبیه به تکامل ژنتیکی پرامپتها، تا 35 برابر به نمونههای آزمایشی (rollouts) کمتری نیاز دارد و هزینههای محاسباتی را بهطور چشمگیری کاهش میدهد.
چرا GEPA مهم است؟
– روشهای رایج RL مانند GRPO که در مدلهای استدلالیِ مشهور استفاده میشوند، سیستم را بهصورت جعبهسیاه میپذیرند و تنها از یک امتیاز اسکالر برای هدایت یادگیری بهره میبرند. این رویکرد نمونهگرایی ناکارآمدی دارد و معمولاً به دهها تا صدها هزار اجرای آزمایشی نیازمند است که برای کاربردهای واقعی با تماسهای پرهزینه به ابزارها یا مدلهای اختصاصی مقرونبهصرفه نیست.
– GEPA هدف خود را روی استخراج حداکثری سیگنال یادگیری از هر اجرای پرهزینه قرار داده و برای تنظیم سیستمهای ترکیبی و ماژولارِ LLM در شرایط داده کم یا بودجه محدود طراحی شده است.
روششناسی GEPA: سه محور اصلی
1. تکامل ژنتیکی پرامپت (Genetic Prompt Evolution)
– GEPA مجموعهای از پرامپتها را مانند یک جمعیت ژنتیکی در نظر میگیرد و با اعمال جهشهای هدفمند نسخههای جدیدی تولید میکند تا فضای راهحلها را کاوش کند.
- بازتاب و بازخورد به زبان طبیعی (Reflection with Natural Language Feedback)
-
بهجای امتیازهای عددی، GEPA کل ردعمل اجرای سیستم — شامل گامهای استدلال، فراخوانی ابزارها و پیامهای خطا — را به صورت متنی در اختیار یک LLM قرار میدهد تا آن را تحلیل و تشخیصگذاری کند. سپس LLM بر اساس این تحلیل پرامپتی اصلاحشده و دقیقتر تولید میکند (مثلاً تشخیص میدهد که باید نسخه خاصی از یک کتابخانه در پرامپت مشخص شود).
-
گزینش مبتنی بر پارتو (Pareto-based Selection)
- به جای انتخاب تنها بهترین پرامپت کلی، GEPA فهرستی از پرامپتهای «متخصص» را نگه میدارد که در نمونههای مختلف عملکرد برتری نشان دادهاند. این رویکرد از گیر افتادن در بهینههای محلی جلوگیری میکند و تنوع راهحلها را افزایش میدهد تا تعمیمپذیری بهبود یابد.
بازدهی و نتایج تجربی
– ارزیابیها در چهار وظیفه متفاوت از جمله سوالپرسش چند-پریدگی (HotpotQA) و پرسوجوهای حفظ حریم خصوصی (PUPA) انجام شد.
– مدلهای مورد آزمایش شامل یک مدل متنباز (Qwen3 8B) و نسخهای از GPT (GPT-4.1 mini) بودند. GEPA با روشهای متداول مانند GRPO و بهینهساز پیشرفته MIPROv2 مقایسه شد.
– نتایج کلیدی: GEPA تا 19% امتیاز بالاتر نسبت به GRPO در برخی وظایف کسب کرد و در عین حال با استفاده از تا 35 برابر اجرای آزمایشی کمتر، همان یا بهتر از رقبا عمل نمود.
– نمونهای عینی: بهینهسازی یک سیستم پاسخگویی در حدود 3 ساعت با GEPA انجام شد، در حالی که GRPO به 24 ساعت نیاز داشت (حدود 8 برابر سریعتر). هزینه محاسباتی در آزمایشها از تقریباً 300 دلار برای RL به کمتر از 20 دلار با GEPA کاهش یافت (بیش از 15 برابر صرفهجویی).
مزایای عملی برای شرکتها
– کاهش هزینه و زمان توسعه: برای سازمانهایی که از مدلهای قدرتمند و پرهزینه یا فراخوانی ابزارهای خارجی استفاده میکنند، کاهش تعداد رولاوتها بهمعنای صرفهجویی واقعی در هزینههای GPU و هزینههای API است.
– افزایش پایداری و تعمیمپذیری: سیستمهای بهینهشده با GEPA شکاف تعمیم (generalization gap) کمتری نشان دادند که به معنی مقاومت بهتر در مقابل دادههای جدید و کاهش شکنندگی در کاربردهای مشتریمحور است.
– پرامپتهای کوتاهتر و سریعتر: پرامپتهای تولیدشده توسط GEPA تا 9.2 برابر کوتاهتر از نمونههای مبتنی بر few-shot بودند؛ این کاهش طول منجر به کاهش تأخیر و هزینههای استنتاج میشود.
– کاربرد در CI/CD و استنتاج زمان-اجرای (inference-time): GEPA میتواند در فرآیندهای پیوسته توسعه نرمافزار ترکیب شود؛ بهعنوان مثال، پس از هر commit کد، نسخههای پرامپت بهینه تولید و آزمایش شده و بهترین نسخه برای بازبینی مهندسان پیشنهاد شود. در آزمایشهای تولید کد CUDA، GEPA عملکرد را در 20% از وظایف به سطح متخصصان رساند، در حالی که پاسخ تکشات GPT-4o در این موارد موفق نبود.
ملاحظات و چشمانداز
– GEPA گامی مهم در جهت تحول پارادایم بهینهسازی سیستمهای ترکیبی مبتنی بر LLM است و میتواند به سازمانهایی اجازه دهد که بدون دانش عمیق RL به بهینهسازیهای پیشرفته دست یابند.
– محققان تأکید دارند که کلید موفقیت، «مهندسی بازخورد» است: استخراج و ساختاربندی جزئیات متنی از اجراهای سیستم که قبلاً بهسادگی به یک عدد خلاصه میشدند.
نتیجهگیری
GEPA نشان میدهد که جایگزینی پاداشهای اسکالر با بازخوردهای زبانمحور و بهرهگیری از سازوکارهای تکاملی و انتخاب پارتویی میتواند بهبود قابلتوجهی در کارایی، هزینه و تعمیمپذیری سیستمهای مبتنی بر LLM ایجاد کند. برای شرکتهایی که بهدنبال توسعه هوش مصنوعی سازمانی پیچیده و مقرونبهصرفه هستند، GEPA نوید کاهش چشمگیر هزینهها، تسریع چرخه توسعه و تولید اپلیکیشنهای پایاتر را میدهد. پژوهشگران از UC Berkeley، Stanford و Databricks این روش را بهعنوان گامی بنیادین در مسیر در دسترسپذیرتر کردن بهینهسازی برای صاحبان دانش دامنه معرفی کردهاند.
