پایان بنچمارک‌های آزمایشگاهی: Inclusion Arena عملکرد مدل‌های زبان بزرگ (LLMs) در محیط تولید را نشان می‌دهد

Inclusion Arena: یک لیدربرد جدید برای سنجش کاربردی مدل‌های زبانی بزرگ (LLM) بر مبنای ترجیح کاربران

پژوهشگران واحد Inclusion AI وابسته به Ant Group (شرکت گروه علی‌بابا) مدل جدیدی با نام Inclusion Arena معرفی کرده‌اند که هدفش ارزیابی و رتبه‌بندی مدل‌های زبانی بزرگ (LLM و MLLM) بر اساس عملکرد آنها در سناریوهای واقعی و ترجیحات کاربران است. این رویکرد تلاش می‌کند فاصله بین بنچمارک‌های سنتی مبتنی بر داده‌های ساکن و نحوه‌ی واقعی استفاده انسان‌ها از مدل‌ها را پر کند.

چرا بنچمارک‌های فعلی کافی نیستند؟
بسیاری از بنچمارک‌های رایج مانند MMLU یا لیدربردهای مبتنی بر مقایسه‌های آفلاین، عملکرد مدل‌ها را در محیط‌های کنترل‌شده و مجموعه‌داده‌های ثابت می‌سنجند؛ اما این معیارها همیشه نشان‌دهنده‌ی نحوه‌ی تعامل کاربران با مدل‌ها و ترجیح واقعی آنها نیستند. پژوهشگران Inclusion AI استدلال می‌کنند که برای تصمیم‌گیری بهتر در سطح سازمانی، لازم است ارزیابی‌ها بازتاب‌دهنده‌ی کاربردهای دنیای واقعی باشند.

روش Inclusion Arena: نبرد زنده مدل‌ها و سنجش ترجیحات
Inclusion Arena یک لیدربرد زنده است که بنچمارک را مستقیماً درون اپلیکیشن‌های واقعی ادغام می‌کند. روش کار بدین شکل است که در هنگام تعامل کاربران با برخی اپ‌ها، پرسش‌ها یا پرامپت‌ها به‌صورت همزمان به چند مدل ارسال می‌شود و پاسخ‌ها جمع‌آوری می‌گردد. کاربران بدون اطلاع از منبع پاسخ، بین گزینه‌ها انتخاب می‌کنند و ترجیحات انسانی ثبت می‌شود. این داده‌های مقایسه‌ای زوج‌به‌زوج سپس برای رتبه‌بندی مدل‌ها استفاده می‌شود.

الگوریتم رتبه‌بندی: Bradley–Terry در برابر Elo
برای محاسبه‌ی امتیازها، Inclusion Arena از مدل آماری Bradley–Terry بهره می‌برد که در مقایسه با روش متداول Elo (مشهور در رتبه‌بندی شطرنج) پایداری بیشتری در استخراج توانایی نهفته از نتایج مقایسه زوجی ارائه می‌دهد. پژوهشگران اشاره می‌کنند که هرچند هر دو چارچوب احتمال‌محور هستند، اما در مقیاس بزرگ و با رشد سریع تعداد مدل‌ها، Bradley–Terry نتایج پایدارتر و قابل‌اعتمادتری تولید می‌کند.

کارایی در مقیاس بزرگ: مکانیزم‌های placement match و proximity sampling
یکی از چالش‌های اصلی انجام همه‌مقایسه‌های زوجی میان تعداد زیادی مدل، هزینهٔ محاسباتی و زمانی است. برای غلبه بر این مشکل، Inclusion Arena دو مکانیزم کلیدی معرفی کرده است:
– placement match: برآورد اولیهٔ جایگاه مدل‌های تازه‌وارد برای کاهش تعداد مقایسه‌های لازم؛
– proximity sampling: محدود کردن مقایسه‌ها به مدل‌هایی که در یک «ناحیهٔ اعتماد» یا نزدیکی عملکردی قرار دارند تا بیشترین اطلاعات از هر مقایسه استخراج شود.

نمونه پیاده‌سازی و نتایج اولیه
در فاز اولیه، Inclusion Arena در دو اپلیکیشن واقعی ادغام شده است: اپ گفت‌وگوی کاراکتر Joyland و اپ ارتباطات آموزشی T-Box. تا ژوئیهٔ ۲۰۲۵، آزمایش‌ها شامل بیش از 501,003 مقایسه زوجی بود و حدود 46,611 کاربر فعال در این دو اپ شرکت داشتند. نتایج اولیه نشان می‌دهند که در میان مدل‌های ارزیابی‌شده، مدل‌های برتر شامل Claude 3.7 Sonnet (Anthropic)، DeepSeek v3-0324، Claude 3.5 Sonnet، DeepSeek v3 و Qwen Max-0125 بوده‌اند. پژوهشگران خاطرنشان کرده‌اند که با افزایش تعداد اپلیکیشن‌های ادغام‌شده و حجم داده‌ها، دقت و ثبات لیدربرد به‌طور چشمگیری افزایش خواهد یافت.

محدودیت‌ها و چشم‌انداز توسعه
محدودیت فعلی Inclusion Arena به تعداد محدود اپلیکیشن‌های اولیه مربوط است؛ اما تیم توسعه هدف‌گذاری کرده است تا با تشکیل یک اتحاد باز و افزودن اپلیکیشن‌های متنوع‌تر، اکوسیستم را گسترش دهد. چنین توسعه‌ای می‌تواند نشان‌‌دهندهٔ طیف وسیع‌تری از الگوهای استفاده واقعی و ترجیحات کاربران در حوزه‌های متفاوت باشد.

پیامد برای سازمان‌ها و تصمیم‌گیرندگان فناوری
افزایش تعداد مدل‌های زبانی و تنوع امکانات آنها، تصمیم‌گیری برای سازمان‌ها را پیچیده کرده است. لیدربردهایی مانند Inclusion Arena می‌توانند تصویری نزدیک‌تر به تجربهٔ واقعی کاربران ارائه دهند و به تیم‌های فناوری کمک کنند گزینه‌هایی را که بیشترین احتمال موفقیت در کاربردهای عملی را دارند، شناسایی کنند. با این حال، پژوهشگران و کارشناسان تأکید دارند که سازمان‌ها همچنان باید ارزیابی‌های داخلی و سناریوهای خاص کسب‌وکار خود را برای انتخاب نهایی مدل انجام دهند.

جمع‌بندی
Inclusion Arena نمایانگر جهتی جدید در سنجش مدل‌های زبانی است که ترجیح کاربران و کاربردهای دنیای واقعی را در مرکز قرار می‌دهد. با ترکیب داده‌های مبتنی بر استفاده واقعی، مدل‌های آماری مانند Bradley–Terry و مکانیزم‌های بهینه‌سازی مقایسه، این روش می‌تواند معیار ارزشمندی برای سازمان‌ها باشد که به دنبال انتخاب مدل‌های مناسب برای پیاده‌سازی‌های عملی هستند.

تبدیل متن به صوت با هوش مصنوعی

پایان بنچمارک‌های آزمایشگاهی: Inclusion Arena عملکرد مدل‌های زبان بزرگ (LLMs) در محیط تولید را نشان می‌دهد

دیدگاه‌ خود را بنویسید لغو پاسخ