به نظر می‌رسد که حتی دنیای پوکمون نیز از جنجال‌های مرتبط با سنجش هوش مصنوعی در امان نیست. هفته گذشته، پستی در شبکه اجتماعی X به طور ویروسی منتشر شد که ادعا می‌کرد مدل جدید جیمنی شرکت گوگل در مقایسه با مدل برجسته کلود از شرکت انترپیکت، در بازی‌های ویدیویی اصلی پوکمون پیشی گرفته است. براساس گزارش‌ها، جیمنی توانسته بود به شهر لاوندر برسد در حالی که مدل کلود تا اواخر فوریه در کوهستان مون مانده بود.

اما پست مذکور به یک نکته مهم اشاره نکرد: جیمنی از یک مزیت خاص برخوردار بود. کاربران در ردیت تأکید کردند که توسعه‌دهنده‌ای که استریم جیمنی را مدیریت می‌کند، یک مِنی‌نقشه سفارشی ساخته است که به مدل کمک می‌کند تا «کاشی‌ها»ی موجود در بازی را شناسایی کند، مانند درختان قابل قطع. این موضوع نیاز جیمنی به تحلیل اسکرین‌شات‌ها را قبل از اتخاذ تصمیمات مربوط به بازی کاهش می‌دهد.

با اینکه پوکمون به عنوان یک معیار نیمه-serious برای سنجش هوش مصنوعی در نظر گرفته می‌شود و هیچ‌کس به‌راحتی نمی‌تواند آن را یک تست جامع از قابلیت‌های مدل‌ها بنامد، اما مثال خوبی است که نشان می‌دهد چگونه پیاده‌سازی‌های مختلف یک معیار می‌تواند بر نتایج تأثیر بگذارد. به عنوان مثال، شرکت انترپیکت دو نمره برای مدل جدید خود، Anthropic 3.7 Sonnet، در معیار SWE-bench Verified گزارش داده است که به‌منظور ارزیابی توانایی‌های کدگذاری مدل طراحی شده است. این مدل در حالت معمول 62.3% دقت دارد اما با استفاده از «ساختار سفارشی»‌ای که توسط انترپیکت توسعه یافته، به دقت 70.3% می‌رسد.

به تازگی، نسخه‌ای مخصوص از یکی از مدل‌های جدید خود، Llama 4 Maverick، برای انجام عملکرد مناسب در معیار LM Arena تنظیم شده است. در حالی که نسخه معمولی این مدل در همان ارزیابی عملکرد به مراتب ضعیف‌تری از خود نشان می‌دهد. با توجه به اینکه معیارهای هوش مصنوعی — از جمله پوکمون — ابتدائاً ابزارهای ناقصی برای سنجش به شمار می‌روند، پیاده‌سازی‌های سفارشی و غیر استاندارد به احتمال زیاد موجب ایجاد ابهامات بیشتری خواهند شد. در واقع به نظر نمی‌رسد که مقایسه مدل‌ها با عرضه‌های جدید آسان‌تر شود.

ایجاد متن‌های دقیق از فایل‌های صوتی شما

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا