تحقیقات جدیدی که بهتازگی از سوی آزمایشگاههای هوش مصنوعی شامل Cohere، استنفورد، MIT و Ai2 منتشر شده است، به اتهام سوءاستفاده از سیستم ارزیابی AI تحت عنوان LM Arena پرداخته و ادعا میکند که این سازمان از طریق کمک به گروه خاصی از شرکتهای هوش مصنوعی، نمرات بهتری در جدول ردهبندی برایشان فراهم کرده است. پژوهشگران اظهار کردهاند که LM Arena به برخی از شرکتهای پیشرو در صنعت مانند متا، OpenAI، گوگل و آمازون اجازه داده است تا بهطور خصوصی چندین نسخه مختلف از مدلهای هوش مصنوعی را آزمایش کنند و نمرات پایینترین عملکردها را منتشر نکنند. این عمل به این شرکتها امکان داده است تا به راحتی در رتبهبندیهای این پلتفرم در موقعیتهای بالایی قرار گیرند، در حالی که این فرصت برای سایر شرکتها فراهم نشده است.
سارا هوکر، معاون تحقیقات هوش مصنوعی در Cohere و یکی از نویسندگان این مطالعه، در مصاحبهای با TechCrunch توضیح داد: “تنها تعداد کمی از شرکتها از این آزمایشهای خصوصی مطلع شدهاند، و میزان آزمایش خصوصی که برخی از این شرکتها دریافت کردهاند بهطرز قابل توجهی بیشتر از دیگران بوده است. این یک نوع گیمفیکیشن است.”
Arena Chatbot، که در سال 2023 به عنوان یک پروژه تحقیقاتی دانشگاهی در دانشگاه کالیفرنیا، برکلی ایجاد شد، به زودی به مرجعی معتبر برای شرکتهای هوش مصنوعی تبدیل شده است. این سیستم با مقایسه پاسخهای دو مدل مختلف هوش مصنوعی در یک “نبرد” و درخواست از کاربران برای انتخاب بهترین پاسخ، کار میکند. در این محیط، مدلهای غیررسمی نیز به صورت ناشناس با یکدیگر رقابت میکنند. امتیازها در طول زمان به نمره مدلها کمک میکند و به تبع آن، جایگاه آنها در جدول ردهبندی Arena Chatbot را تعیین میکند.
با این حال، در حال حاضر و بر اساس اطلاعات ارائه شده در این تحقیق، مشخص شده است که یکی از شرکتها، متا، بین ژانویه و مارس، قبل از عرضه Llama 4، توانسته است 27 نوع مختلف مدل را بهصورت خصوصی آزمایش کند. در زمان عرضه، این شرکت تنها نمره یک مدل که بهطرز تصادفی در ردهبندی بالای Arena Chatbot قرار داشت، اعلام کرد. در پاسخ به این ادعاها، ایون استویکا، یکی از بنیانگذاران LM Arena، گفته است که تحقیق حاضر پر از “عدمدقتها” و “تحلیلهای سوال برانگیز” است و توضیح دادهاند که برخی از ادعاها واقعیت را منعکس نمیکنند.
نویسندگان این تحقیق از نوامبر 2024 تحقیقات خود را آغاز کردند، پس از آنکه مشخص شد برخی شرکتهای هوش مصنوعی ممکن است دسترسی ویژهای به Arena Chatbot داشته باشند. آنها در مجموع بیش از 2.8 میلیون نبرد Arena Chatbot را در طی یک دوره پنجماهه بررسی کردند. یافتههای آنان نشان میدهد که LM Arena به برخی شرکتها امکان جمعآوری دادههای بیشتری را از طریق شرکت در نبردهای بیشتری داده است که این امر به آنان مزیت ناعادلانهای بخشیده است.
LM Arena همچنین در بیانیهای اعلام کرده است که برخی از پیشنهادهای مطرح شده برای افزایش شفافیت را رد کرده و به نتایج بدست آمده اشاره کرده است که نشان میدهد مدلهای مربوط به آزمایشگاههای غیرمعتبر در نبردهای Arena Chatbot بیشتر از آنچه که مطالعه ادعا کرده، ظاهر میشوند. نویسندگان مقاله همچنین پیشنهاد کردهاند که تعداد آزمایشهای خصوصی که هر آزمایشگاه هوش مصنوعی میتواند انجام دهد، محدود شود و نمرات این آزمایشها بهصورت عمومی منتشر گردد.
این تحقیق نشاندهنده تدابیر جدیدی برای بهبود شفافیت و عدالت در ارزیابیهای هوش مصنوعی و افزایش اعتماد صنعت به نهادهای استانداردسازی است. با توجه به انتقادات و رصد مداوم عملکرد شرکتهای بزرگ، به نظر میرسد که نیاز به استانداردهای روشنتر و اجتناب از نفوذهای تجاری بیشتر از همیشه احساس میشود.