Inclusion Arena: یک لیدربرد جدید برای سنجش کاربردی مدلهای زبانی بزرگ (LLM) بر مبنای ترجیح کاربران
پژوهشگران واحد Inclusion AI وابسته به Ant Group (شرکت گروه علیبابا) مدل جدیدی با نام Inclusion Arena معرفی کردهاند که هدفش ارزیابی و رتبهبندی مدلهای زبانی بزرگ (LLM و MLLM) بر اساس عملکرد آنها در سناریوهای واقعی و ترجیحات کاربران است. این رویکرد تلاش میکند فاصله بین بنچمارکهای سنتی مبتنی بر دادههای ساکن و نحوهی واقعی استفاده انسانها از مدلها را پر کند.
چرا بنچمارکهای فعلی کافی نیستند؟
بسیاری از بنچمارکهای رایج مانند MMLU یا لیدربردهای مبتنی بر مقایسههای آفلاین، عملکرد مدلها را در محیطهای کنترلشده و مجموعهدادههای ثابت میسنجند؛ اما این معیارها همیشه نشاندهندهی نحوهی تعامل کاربران با مدلها و ترجیح واقعی آنها نیستند. پژوهشگران Inclusion AI استدلال میکنند که برای تصمیمگیری بهتر در سطح سازمانی، لازم است ارزیابیها بازتابدهندهی کاربردهای دنیای واقعی باشند.
روش Inclusion Arena: نبرد زنده مدلها و سنجش ترجیحات
Inclusion Arena یک لیدربرد زنده است که بنچمارک را مستقیماً درون اپلیکیشنهای واقعی ادغام میکند. روش کار بدین شکل است که در هنگام تعامل کاربران با برخی اپها، پرسشها یا پرامپتها بهصورت همزمان به چند مدل ارسال میشود و پاسخها جمعآوری میگردد. کاربران بدون اطلاع از منبع پاسخ، بین گزینهها انتخاب میکنند و ترجیحات انسانی ثبت میشود. این دادههای مقایسهای زوجبهزوج سپس برای رتبهبندی مدلها استفاده میشود.
الگوریتم رتبهبندی: Bradley–Terry در برابر Elo
برای محاسبهی امتیازها، Inclusion Arena از مدل آماری Bradley–Terry بهره میبرد که در مقایسه با روش متداول Elo (مشهور در رتبهبندی شطرنج) پایداری بیشتری در استخراج توانایی نهفته از نتایج مقایسه زوجی ارائه میدهد. پژوهشگران اشاره میکنند که هرچند هر دو چارچوب احتمالمحور هستند، اما در مقیاس بزرگ و با رشد سریع تعداد مدلها، Bradley–Terry نتایج پایدارتر و قابلاعتمادتری تولید میکند.
کارایی در مقیاس بزرگ: مکانیزمهای placement match و proximity sampling
یکی از چالشهای اصلی انجام همهمقایسههای زوجی میان تعداد زیادی مدل، هزینهٔ محاسباتی و زمانی است. برای غلبه بر این مشکل، Inclusion Arena دو مکانیزم کلیدی معرفی کرده است:
– placement match: برآورد اولیهٔ جایگاه مدلهای تازهوارد برای کاهش تعداد مقایسههای لازم؛
– proximity sampling: محدود کردن مقایسهها به مدلهایی که در یک «ناحیهٔ اعتماد» یا نزدیکی عملکردی قرار دارند تا بیشترین اطلاعات از هر مقایسه استخراج شود.
نمونه پیادهسازی و نتایج اولیه
در فاز اولیه، Inclusion Arena در دو اپلیکیشن واقعی ادغام شده است: اپ گفتوگوی کاراکتر Joyland و اپ ارتباطات آموزشی T-Box. تا ژوئیهٔ ۲۰۲۵، آزمایشها شامل بیش از 501,003 مقایسه زوجی بود و حدود 46,611 کاربر فعال در این دو اپ شرکت داشتند. نتایج اولیه نشان میدهند که در میان مدلهای ارزیابیشده، مدلهای برتر شامل Claude 3.7 Sonnet (Anthropic)، DeepSeek v3-0324، Claude 3.5 Sonnet، DeepSeek v3 و Qwen Max-0125 بودهاند. پژوهشگران خاطرنشان کردهاند که با افزایش تعداد اپلیکیشنهای ادغامشده و حجم دادهها، دقت و ثبات لیدربرد بهطور چشمگیری افزایش خواهد یافت.
محدودیتها و چشمانداز توسعه
محدودیت فعلی Inclusion Arena به تعداد محدود اپلیکیشنهای اولیه مربوط است؛ اما تیم توسعه هدفگذاری کرده است تا با تشکیل یک اتحاد باز و افزودن اپلیکیشنهای متنوعتر، اکوسیستم را گسترش دهد. چنین توسعهای میتواند نشاندهندهٔ طیف وسیعتری از الگوهای استفاده واقعی و ترجیحات کاربران در حوزههای متفاوت باشد.
پیامد برای سازمانها و تصمیمگیرندگان فناوری
افزایش تعداد مدلهای زبانی و تنوع امکانات آنها، تصمیمگیری برای سازمانها را پیچیده کرده است. لیدربردهایی مانند Inclusion Arena میتوانند تصویری نزدیکتر به تجربهٔ واقعی کاربران ارائه دهند و به تیمهای فناوری کمک کنند گزینههایی را که بیشترین احتمال موفقیت در کاربردهای عملی را دارند، شناسایی کنند. با این حال، پژوهشگران و کارشناسان تأکید دارند که سازمانها همچنان باید ارزیابیهای داخلی و سناریوهای خاص کسبوکار خود را برای انتخاب نهایی مدل انجام دهند.
جمعبندی
Inclusion Arena نمایانگر جهتی جدید در سنجش مدلهای زبانی است که ترجیح کاربران و کاربردهای دنیای واقعی را در مرکز قرار میدهد. با ترکیب دادههای مبتنی بر استفاده واقعی، مدلهای آماری مانند Bradley–Terry و مکانیزمهای بهینهسازی مقایسه، این روش میتواند معیار ارزشمندی برای سازمانها باشد که به دنبال انتخاب مدلهای مناسب برای پیادهسازیهای عملی هستند.
