به نظر میرسد که حتی دنیای پوکمون نیز از جنجالهای مرتبط با سنجش هوش مصنوعی در امان نیست. هفته گذشته، پستی در شبکه اجتماعی X به طور ویروسی منتشر شد که ادعا میکرد مدل جدید جیمنی شرکت گوگل در مقایسه با مدل برجسته کلود از شرکت انترپیکت، در بازیهای ویدیویی اصلی پوکمون پیشی گرفته است. براساس گزارشها، جیمنی توانسته بود به شهر لاوندر برسد در حالی که مدل کلود تا اواخر فوریه در کوهستان مون مانده بود.
اما پست مذکور به یک نکته مهم اشاره نکرد: جیمنی از یک مزیت خاص برخوردار بود. کاربران در ردیت تأکید کردند که توسعهدهندهای که استریم جیمنی را مدیریت میکند، یک مِنینقشه سفارشی ساخته است که به مدل کمک میکند تا «کاشیها»ی موجود در بازی را شناسایی کند، مانند درختان قابل قطع. این موضوع نیاز جیمنی به تحلیل اسکرینشاتها را قبل از اتخاذ تصمیمات مربوط به بازی کاهش میدهد.
با اینکه پوکمون به عنوان یک معیار نیمه-serious برای سنجش هوش مصنوعی در نظر گرفته میشود و هیچکس بهراحتی نمیتواند آن را یک تست جامع از قابلیتهای مدلها بنامد، اما مثال خوبی است که نشان میدهد چگونه پیادهسازیهای مختلف یک معیار میتواند بر نتایج تأثیر بگذارد. به عنوان مثال، شرکت انترپیکت دو نمره برای مدل جدید خود، Anthropic 3.7 Sonnet، در معیار SWE-bench Verified گزارش داده است که بهمنظور ارزیابی تواناییهای کدگذاری مدل طراحی شده است. این مدل در حالت معمول 62.3% دقت دارد اما با استفاده از «ساختار سفارشی»ای که توسط انترپیکت توسعه یافته، به دقت 70.3% میرسد.
به تازگی، نسخهای مخصوص از یکی از مدلهای جدید خود، Llama 4 Maverick، برای انجام عملکرد مناسب در معیار LM Arena تنظیم شده است. در حالی که نسخه معمولی این مدل در همان ارزیابی عملکرد به مراتب ضعیفتری از خود نشان میدهد. با توجه به اینکه معیارهای هوش مصنوعی — از جمله پوکمون — ابتدائاً ابزارهای ناقصی برای سنجش به شمار میروند، پیادهسازیهای سفارشی و غیر استاندارد به احتمال زیاد موجب ایجاد ابهامات بیشتری خواهند شد. در واقع به نظر نمیرسد که مقایسه مدلها با عرضههای جدید آسانتر شود.