تحقیقات، LM Arena را متهم به کمک به آزمایشگاه‌های برتر هوش مصنوعی در تقلب در معیارها می‌کند

تحقیقات جدیدی که به‌تازگی از سوی آزمایشگاه‌های هوش مصنوعی شامل Cohere، استنفورد، MIT و Ai2 منتشر شده است، به اتهام سوءاستفاده از سیستم ارزیابی AI تحت عنوان LM Arena پرداخته و ادعا می‌کند که این سازمان از طریق کمک به گروه خاصی از شرکت‌های هوش مصنوعی، نمرات بهتری در جدول رده‌بندی برایشان فراهم کرده است. پژوهشگران اظهار کرده‌اند که LM Arena به برخی از شرکت‌های پیشرو در صنعت مانند متا، OpenAI، گوگل و آمازون اجازه داده است تا به‌طور خصوصی چندین نسخه مختلف از مدل‌های هوش مصنوعی را آزمایش کنند و نمرات پایین‌ترین عملکردها را منتشر نکنند. این عمل به این شرکت‌ها امکان داده است تا به راحتی در رتبه‌بندی‌های این پلتفرم در موقعیت‌های بالایی قرار گیرند، در حالی که این فرصت برای سایر شرکت‌ها فراهم نشده است.

سارا هوکر، معاون تحقیقات هوش مصنوعی در Cohere و یکی از نویسندگان این مطالعه، در مصاحبه‌ای با TechCrunch توضیح داد: “تنها تعداد کمی از شرکت‌ها از این آزمایش‌های خصوصی مطلع شده‌اند، و میزان آزمایش خصوصی که برخی از این شرکت‌ها دریافت کرده‌اند به‌طرز قابل توجهی بیشتر از دیگران بوده است. این یک نوع گیم‌فیکیشن است.”

Arena Chatbot، که در سال 2023 به عنوان یک پروژه تحقیقاتی دانشگاهی در دانشگاه کالیفرنیا، برکلی ایجاد شد، به زودی به مرجعی معتبر برای شرکت‌های هوش مصنوعی تبدیل شده است. این سیستم با مقایسه پاسخ‌های دو مدل مختلف هوش مصنوعی در یک “نبرد” و درخواست از کاربران برای انتخاب بهترین پاسخ، کار می‌کند. در این محیط، مدل‌های غیررسمی نیز به صورت ناشناس با یکدیگر رقابت می‌کنند. امتیازها در طول زمان به نمره مدل‌ها کمک می‌کند و به تبع آن، جایگاه آنها در جدول رده‌بندی Arena Chatbot را تعیین می‌کند.

با این حال، در حال حاضر و بر اساس اطلاعات ارائه شده در این تحقیق، مشخص شده است که یکی از شرکت‌ها، متا، بین ژانویه و مارس، قبل از عرضه Llama 4، توانسته است 27 نوع مختلف مدل را به‌صورت خصوصی آزمایش کند. در زمان عرضه، این شرکت تنها نمره یک مدل که به‌طرز تصادفی در رده‌بندی بالای Arena Chatbot قرار داشت، اعلام کرد. در پاسخ به این ادعاها، ایون استویکا، یکی از بنیانگذاران LM Arena، گفته است که تحقیق حاضر پر از “عدم‌دقت‌ها” و “تحلیل‌های سوال برانگیز” است و توضیح داده‌اند که برخی از ادعاها واقعیت را منعکس نمی‌کنند.

نویسندگان این تحقیق از نوامبر 2024 تحقیقات خود را آغاز کردند، پس از آنکه مشخص شد برخی شرکت‌های هوش مصنوعی ممکن است دسترسی ویژه‌ای به Arena Chatbot داشته باشند. آنها در مجموع بیش از 2.8 میلیون نبرد Arena Chatbot را در طی یک دوره پنج‌ماهه بررسی کردند. یافته‌های آنان نشان می‌دهد که LM Arena به برخی شرکت‌ها امکان جمع‌آوری داده‌های بیشتری را از طریق شرکت در نبردهای بیشتری داده است که این امر به آنان مزیت ناعادلانه‌ای بخشیده است.

LM Arena همچنین در بیانیه‌ای اعلام کرده است که برخی از پیشنهادهای مطرح شده برای افزایش شفافیت را رد کرده و به نتایج بدست آمده اشاره کرده است که نشان می‌دهد مدل‌های مربوط به آزمایشگاه‌های غیرمعتبر در نبردهای Arena Chatbot بیشتر از آنچه که مطالعه ادعا کرده، ظاهر می‌شوند. نویسندگان مقاله همچنین پیشنهاد کرده‌اند که تعداد آزمایش‌های خصوصی که هر آزمایشگاه هوش مصنوعی می‌تواند انجام دهد، محدود شود و نمرات این آزمایش‌ها به‌صورت عمومی منتشر گردد.

این تحقیق نشان‌دهنده تدابیر جدیدی برای بهبود شفافیت و عدالت در ارزیابی‌های هوش مصنوعی و افزایش اعتماد صنعت به نهادهای استانداردسازی است. با توجه به انتقادات و رصد مداوم عملکرد شرکت‌های بزرگ، به نظر می‌رسد که نیاز به استانداردهای روشن‌تر و اجتناب از نفوذ‌های تجاری بیشتر از همیشه احساس می‌شود.

تولید تصویر با هوش مصنوعی

تحقیقات، LM Arena را متهم به کمک به آزمایشگاه‌های برتر هوش مصنوعی در تقلب در معیارها می‌کند

دیدگاه‌ خود را بنویسید لغو پاسخ