آزمون توانمندیهای هوش مصنوعی به کمک بازی Minecraft؛ نوآوری جدید در ارزیابی مدلهای مبتنی بر هوش مصنوعی
در حالی که روشهای سنتی ارزیابی عملکرد هوش مصنوعی همچنان با محدودیتها مواجه هستند، توسعهدهندگان این فناوری به دنبال راهکارهای خلاقانهتر برای سنجش قابلیتهای مدلهای هوش مصنوعی مولد هستند. یکی از نمونههای جالب این نوآوری، استفاده از بازی محبوب Minecraft بهعنوان بستری برای ارزیابی عملکرد مدلها است.
سایت Minecraft Benchmark (MC-Bench) که بهصورت مشارکتی طراحی شده، بستری فراهم کرده است که مدلهای هوش مصنوعی را در چالشهایی رودررو قرار میدهد تا به درخواستها پاسخ داده و ساخت و سازهایی در Minecraft ایجاد کنند. کاربران این پلتفرم، با مقایسه خلقیات مدلها و رأیدهی به بهترین نتیجه، میتوانند عملکرد آنها را ارزیابی کنند. پس از ثبت رأی، مشخص میشود که کدام مدل هوش مصنوعی هر پروژه را ساخته است.
چرا Minecraft برای ارزیابی مدلهای هوش مصنوعی انتخاب شده است؟
آدی سینگ، دانشآموز پایه دوازدهم و پایهگذار MC-Bench، معتقد است که ارزش Minecraft بیشتر به خاطر آشنایی کاربران با محیط این بازی است تا جذابیت خود بازی. او در گفتوگو با TechCrunch اظهار داشت: «Minecraft به افراد اجازه میدهد تا پیشرفت در توسعه هوش مصنوعی را بسیار سادهتر مشاهده کنند. مردم با ظاهر و فضای این بازی آشنایی دارند و این امر ارزیابی را آسانتر میکند.»
Minecraft، بهعنوان پرفروشترین بازی تاریخ، حتی برای افرادی که هرگز آن را بازی نکردهاند نیز قابل تشخیص است. مثلاً یک کاربر میتواند با نگاهی به طراحی یک نمونه ساده مانند «مجموعهای از بلوکهایی که یک آناناس را نشان میدهند»، کیفیت ساخت آن را قضاوت کند.
همکاری گسترده در ارزیابی مدلهای هوش مصنوعی
پروژه MC-Bench در حال حاضر با مشارکت 8 نفر بهعنوان داوطلب راهاندازی شده است. شرکتهایی مانند Anthropic، گوگل، OpenAI و علیبابا استفاده از محصولاتشان برای اجرای درخواستها در این پلتفرم را تامین مالی کردهاند؛ اما همانطور که در وبسایت MC-Bench آمده، هیچ ارتباط رسمی دیگری میان این شرکتها و پروژه وجود ندارد.
سینگ در این باره میگوید: «در حال حاضر، ما تنها روی ساختهای ساده تمرکز داریم تا نشان دهیم چه مسیری را از زمان مدلهای GPT-3 طی کردهایم. اما ممکن است به سمت برنامههای طولانیتر و وظایف هدفمندتر پیش برویم.» او همچنین به این موضوع اشاره کرد که بازیها بهعنوان یک بستر آزمایشی، امکان ارزیابی استدلالهای عاملی را با امنیت و کنترل بیشتر نسبت به شرایط واقعی فراهم میکنند.
نقش بازیهای دیگر در آزمایش قابلیتهای هوش مصنوعی
از بازیهایی نظیر Pokémon Red، Street Fighter و Pictionary نیز در گذشته بهعنوان معیارهای تجربی برای ارزیابی هوش مصنوعی استفاده شده است. این انتخابها به دلیل پیچیدگی سنجش عملکرد هوش مصنوعی انجام شده است؛ چرا که معیارهای سنتی اغلب باعث میشوند مدلها در شرایط مطلوب خود مورد ارزیابی قرار گیرند.
این مدلها به دلیل شیوه آموزش خود، در برخی از زمینههای خاص، نظیر حل مسائل مبتنی بر یادگیری حفظی یا استنتاج اولیه، عملکردی قابلتوجه نشان میدهند. اما همین مدلها ممکن است در موارد سادهتر مانند شمارش تعداد حرف «ر» در کلمهی «توتفرنگی» به مشکل بربخورند. این تفاوتها نشاندهنده پیچیدگی سنجش عملکرد واقعی هوش مصنوعی است.
بهعنوان مثال، مدل Claude 3.7 توانسته است به دقت 62.3 درصدی در یک آزمون استاندارد مهندسی نرمافزار دست یابد؛ اما در بازی Pokémon ضعیفتر از مهارتهای یک کودک پنجساله عمل کرده است.
پتانسیل MC-Bench در ایجاد تحول در ارزیابی مدلهای هوش مصنوعی
MC-Bench بهصورت فنی یک معیار برنامهنویسی محسوب میشود، زیرا مدلها باید کدهایی بنویسند که ساخت و سازهای درخواستشده، مانند «آدمبرفی معروف» یا «کلبهای دنج در ساحل گرمسیری»، را ایجاد کنند. با این حال، برای اغلب کاربران MC-Bench، ارزیابی ظاهر یک آدمبرفی بهمراتب سادهتر و قابلدرکتر از بررسی کدهای برنامهنویسی است. همین قابلیت باعث شده تا این پروژه محبوبیت بیشتری پیدا کند و دادههای بیشتری درباره عملکرد مدلها جمعآوری شود.
آدی سینگ معتقد است که نتایج ثبتشده در MC-Bench نشاندهنده مسیری روشن در ارزیابی مدلها است. او میگوید: «جدول رتبهبندی فعلی دقیقاً بازتابی از تجربه شخصی من در استفاده از این مدلهاست، که برخلاف بسیاری از معیارهای متنی ساده، نتیجهای واقعگرایانه ارائه میدهد.» وی همچنین افزود که این پلتفرم میتواند ابزاری مفید برای شرکتها باشد تا مطمئن شوند در مسیر صحیح توسعه هوش مصنوعی قرار دارند.
نتیجهگیری
استفاده از Minecraft بهعنوان معیاری جدید برای سنجش تواناییهای هوش مصنوعی، نشاندهنده رویکردهای خلاقانهتر در ارزیابی این فناوری است. از آنجایی که روشهای سنتی هنوز قادر به بازتاب عملکرد واقعی مدلها نیستند، ایجاد معیارهای بصری و قابلفهم مانند MC-Bench میتواند به ارتقای فرایند ارزیابی و توسعه هوش مصنوعی کمک کند. این نوآوری تنها آغاز مسیری است که در آینده میتواند منجر به ایجاد راهکارهای خلاقانهتر و کاربردیتر برای سنجش توانمندیهای هوش مصنوعی شود.