آزمایشگاههای هوش مصنوعی به طور فزایندهای به پلتفرمهای معیارسنجی تجمعی مانند Chatbot Arena وابسته شدهاند تا نقاط قوت و ضعف مدلهای جدید خود را مورد ارزیابی قرار دهند. اما برخی از کارشناسان بر این باورند که این روش از منظر اخلاقی و علمی با مشکلات جدی مواجه است. در سالهای اخیر، آزمایشگاههایی مانند OpenAI، گوگل و متا به چنین پلتفرمهایی روی آوردهاند تا با جذب کاربران، تواناییهای مدلهای پیشرو را ارزیابی کنند. هنگامی که یک مدل نمره خوبی کسب میکند، معمولاً آزمایشگاه مسئول آن نمره را به عنوان مدرکی از بهبود معنادار معرفی میکند. با این حال، به عقیده امیلی بندر، استاد زبانشناسی دانشگاه واشنگتن و یکی از نویسندگان کتاب “the AI Con”، این رویکرد معیوب است.
بندر بهویژه به Chatbot Arena انتقاد میکند، که از داوطلبان میخواهد دو مدل ناشناس را آزمایش کرده و پاسخ مورد نظر خود را انتخاب کنند. او میگوید: “برای معتبر بودن، یک معیار باید چیزی خاص را اندازهگیری کند و همچنین باید اعتبار ساختاری داشته باشد. به عبارتی، شواهدی باید وجود داشته باشد که ساختار مورد نظر به خوبی تعریف شده و اندازهگیریها واقعاً به آن ساختار مربوط شوند.” اما بندر معتقد است که Chatbot Arena نشان نداده است که رأیگیری برای یک خروجی نسبت به دیگری واقعاً با ترجیحات مرتبط است.
اسملش تکا حدگو، یکی از بنیانگذاران شرکت هوش مصنوعی Lesan و پژوهشگر در موسسه تحقیقات هوش مصنوعی توزیعشده، بیان میکند که benchmarksهایی مانند Chatbot Arena مورد سوءاستفاده قرار میگیرند تا ادعاهای مبالغهآمیز را ترویج دهند. او به جنجال اخیر مربوط به مدل Llama 4 Maverick متا اشاره کرد که نسخهای از آن برای به دست آوردن نمره خوب در Chatbot Arena تنظیم شده بود، اما متا به جای عرضه آن، نسخهای کمعملکردتر را منتشر کرد. حدگو تصریح میکند: “معیارها باید پویا باشند و نه مجموعههای ایستا، و باید در میان چندین نهاد مستقل، مانند سازمانها یا دانشگاهها توزیع شوند و بهطور خاص به موردهای مختلف استفاده، مانند آموزش و بهداشت و درمان، Tailored شوند.”
حدگو و کریستین گلوریا، که پیشتر رهبری ابتکار فناوریهای پیشرفته و هوشمند Aspen Institute را بر عهده داشت، همچنین بر این تأکید کردند که ارزیابان مدل باید برای کار خود جبران شوند. گلوریا گفت که آزمایشگاههای هوش مصنوعی باید از اشتباهات صنعت برچسبگذاری داده که به خاطر شیوههای استثمارگرایانهاش معروف شده، درس بگیرند. او افزود: “به طور کلی، فرآیند معیارسنجی تجمعی ارزشمند است و به یادم میآورد که شبیه به ابتکارات علم شهروندی است. ایدهآل آن این است که دیدگاههای اضافی را برای ارائه عمق در ارزیابی و تنظیم دادهها به ارمغان آورد. اما معیارها هرگز نباید تنها معیار برای ارزیابی باشند.”
مت فریدریکسون، مدیرعامل Gray Swan AI که کمپینهای تست مدلهای هوش مصنوعی تجمعی را اجرا میکند، گفت که داوطلبان به دلیل دلایل مختلفی، از جمله “یادگیری و تمرین مهارتهای جدید” به این پلتفرم گرایش دارند. او همچنین اذعان کرد که معیارهای عمومی “نمیتوانند جایگزین” ارزیابیهای “خصوصی و پرداختی” شوند. فریدریکسون گفت: “توسعهدهندگان همچنین باید به معیارهای داخلی، تیمهای قرمز الگوریتمی و تیمهای قرمز قراردادی که میتوانند رویکردی بازتر و یا تخصص خاصی داشته باشند، متکی باشند.”
الکس آتاله، مدیرعامل OpenRouter، که به تازگی با OpenAI برای ارائه دسترسی زودهنگام به مدلهای GPT-4.1 همکاری کرده است، گفت که تست و معیارسنجی باز مدلها به تنهایی “کافی نیست”. وی-لین چیانگ، دانشجوی دکترای هوش مصنوعی در دانشگاه کالیفرنیا، برکلی و یکی از بنیانگذاران LMArena، که مدیریت Chatbot Arena را بر عهده دارد، نیز همین نظر را داشت. چیانگ گفت که وقایع مانند اختلاف معیار Maverick ناشی از نقص در طراحی Chatbot Arena نیست، بلکه ناشی از سوءتعبیر آزمایشگاهها از سیاستهای آن است. وی افزود لمArena اقداماتی را برای جلوگیری از بروز اختلافات آینده انجام داده است، از جمله بهروزرسانی سیاستهای خود برای “تقویت تعهد ما به ارزیابیهای عادلانه و قابل تکرار.”
چیانگ در پایان تصریح کرد: “جامعه ما به عنوان داوطلب یا تستکننده مدلها اینجا نیست. مردم از LM Arena استفاده میکنند زیرا فضایی باز و شفاف برای تعامل با هوش مصنوعی و ارائه بازخورد جمعی فراهم میکند. به شرطی که جدول رتبهبندی صدای جامعه را به درستی بازتاب دهد، ما از آن استقبال میکنیم.”