آزمایشگاه‌های هوش مصنوعی به طور فزاینده‌ای به پلتفرم‌های معیارسنجی تجمعی مانند Chatbot Arena وابسته شده‌اند تا نقاط قوت و ضعف مدل‌های جدید خود را مورد ارزیابی قرار دهند. اما برخی از کارشناسان بر این باورند که این روش از منظر اخلاقی و علمی با مشکلات جدی مواجه است. در سال‌های اخیر، آزمایشگاه‌هایی مانند OpenAI، گوگل و متا به چنین پلتفرم‌هایی روی آورده‌اند تا با جذب کاربران، توانایی‌های مدل‌های پیش‌رو را ارزیابی کنند. هنگامی که یک مدل نمره خوبی کسب می‌کند، معمولاً آزمایشگاه مسئول آن نمره را به عنوان مدرکی از بهبود معنادار معرفی می‌کند. با این حال، به عقیده امیلی بندر، استاد زبان‌شناسی دانشگاه واشنگتن و یکی از نویسندگان کتاب “the AI Con”، این رویکرد معیوب است.

بندر به‌ویژه به Chatbot Arena انتقاد می‌کند، که از داوطلبان می‌خواهد دو مدل ناشناس را آزمایش کرده و پاسخ مورد نظر خود را انتخاب کنند. او می‌گوید: “برای معتبر بودن، یک معیار باید چیزی خاص را اندازه‌گیری کند و همچنین باید اعتبار ساختاری داشته باشد. به عبارتی، شواهدی باید وجود داشته باشد که ساختار مورد نظر به خوبی تعریف شده و اندازه‌گیری‌ها واقعاً به آن ساختار مربوط شوند.” اما بندر معتقد است که Chatbot Arena نشان نداده است که رأی‌گیری برای یک خروجی نسبت به دیگری واقعاً با ترجیحات مرتبط است.

اسملش تکا حدگو، یکی از بنیان‌گذاران شرکت هوش مصنوعی Lesan و پژوهشگر در موسسه تحقیقات هوش مصنوعی توزیع‌شده، بیان می‌کند که benchmarks‌هایی مانند Chatbot Arena مورد سوءاستفاده قرار می‌گیرند تا ادعاهای مبالغه‌آمیز را ترویج دهند. او به جنجال اخیر مربوط به مدل Llama 4 Maverick متا اشاره کرد که نسخه‌ای از آن برای به دست آوردن نمره خوب در Chatbot Arena تنظیم شده بود، اما متا به جای عرضه آن، نسخه‌ای کم‌عملکردتر را منتشر کرد. حدگو تصریح می‌کند: “معیارها باید پویا باشند و نه مجموعه‌های ایستا، و باید در میان چندین نهاد مستقل، مانند سازمان‌ها یا دانشگاه‌ها توزیع شوند و به‌طور خاص به موردهای مختلف استفاده، مانند آموزش و بهداشت و درمان، Tailored شوند.”

حدگو و کریستین گلوریا، که پیش‌تر رهبری ابتکار فناوری‌های پیشرفته و هوشمند Aspen Institute را بر عهده داشت، همچنین بر این تأکید کردند که ارزیابان مدل باید برای کار خود جبران شوند. گلوریا گفت که آزمایشگاه‌های هوش مصنوعی باید از اشتباهات صنعت برچسب‌گذاری داده که به خاطر شیوه‌های استثمارگرایانه‌اش معروف شده، درس بگیرند. او افزود: “به طور کلی، فرآیند معیارسنجی تجمعی ارزشمند است و به یادم می‌آورد که شبیه به ابتکارات علم شهروندی است. ایده‌آل آن این است که دیدگاه‌های اضافی را برای ارائه عمق در ارزیابی و تنظیم داده‌ها به ارمغان آورد. اما معیارها هرگز نباید تنها معیار برای ارزیابی باشند.”

مت فریدریکسون، مدیرعامل Gray Swan AI که کمپین‌های تست مدل‌های هوش مصنوعی تجمعی را اجرا می‌کند، گفت که داوطلبان به دلیل دلایل مختلفی، از جمله “یادگیری و تمرین مهارت‌های جدید” به این پلتفرم گرایش دارند. او همچنین اذعان کرد که معیارهای عمومی “نمی‌توانند جایگزین” ارزیابی‌های “خصوصی و پرداختی” شوند. فریدریکسون گفت: “توسعه‌دهندگان همچنین باید به معیارهای داخلی، تیم‌های قرمز الگوریتمی و تیم‌های قرمز قراردادی که می‌توانند رویکردی بازتر و یا تخصص خاصی داشته باشند، متکی باشند.”

الکس آتاله، مدیرعامل OpenRouter، که به تازگی با OpenAI برای ارائه دسترسی زودهنگام به مدل‌های GPT-4.1 همکاری کرده است، گفت که تست و معیارسنجی باز مدل‌ها به تنهایی “کافی نیست”. وی-لین چیانگ، دانشجوی دکترای هوش مصنوعی در دانشگاه کالیفرنیا، برکلی و یکی از بنیان‌گذاران LMArena، که مدیریت Chatbot Arena را بر عهده دارد، نیز همین نظر را داشت. چیانگ گفت که وقایع مانند اختلاف معیار Maverick ناشی از نقص در طراحی Chatbot Arena نیست، بلکه ناشی از سوءتعبیر آزمایشگاه‌ها از سیاست‌های آن است. وی افزود لمArena اقداماتی را برای جلوگیری از بروز اختلافات آینده انجام داده است، از جمله به‌روزرسانی سیاست‌های خود برای “تقویت تعهد ما به ارزیابی‌های عادلانه و قابل تکرار.”

چیانگ در پایان تصریح کرد: “جامعه ما به عنوان داوطلب یا تست‌کننده مدل‌ها اینجا نیست. مردم از LM Arena استفاده می‌کنند زیرا فضایی باز و شفاف برای تعامل با هوش مصنوعی و ارائه بازخورد جمعی فراهم می‌کند. به شرطی که جدول رتبه‌بندی صدای جامعه را به درستی بازتاب دهد، ما از آن استقبال می‌کنیم.”

چت آنلاین با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا