آزمون توانمندی‌های هوش مصنوعی به کمک بازی Minecraft؛ نوآوری جدید در ارزیابی مدل‌های مبتنی بر هوش مصنوعی

در حالی که روش‌های سنتی ارزیابی عملکرد هوش مصنوعی همچنان با محدودیت‌ها مواجه هستند، توسعه‌دهندگان این فناوری به دنبال راهکارهای خلاقانه‌تر برای سنجش قابلیت‌های مدل‌های هوش مصنوعی مولد هستند. یکی از نمونه‌های جالب این نوآوری، استفاده از بازی محبوب Minecraft به‌عنوان بستری برای ارزیابی عملکرد مدل‌ها است.

سایت Minecraft Benchmark (MC-Bench) که به‌صورت مشارکتی طراحی شده، بستری فراهم کرده است که مدل‌های هوش مصنوعی را در چالش‌هایی رودررو قرار می‌دهد تا به درخواست‌ها پاسخ داده و ساخت و سازهایی در Minecraft ایجاد کنند. کاربران این پلتفرم، با مقایسه خلقیات مدل‌ها و رأی‌دهی به بهترین نتیجه، می‌توانند عملکرد آن‌ها را ارزیابی کنند. پس از ثبت رأی، مشخص می‌شود که کدام مدل هوش مصنوعی هر پروژه را ساخته است.

چرا Minecraft برای ارزیابی مدل‌های هوش مصنوعی انتخاب شده است؟

آدی سینگ، دانش‌آموز پایه دوازدهم و پایه‌گذار MC-Bench، معتقد است که ارزش Minecraft بیشتر به خاطر آشنایی کاربران با محیط این بازی است تا جذابیت خود بازی. او در گفت‌وگو با TechCrunch اظهار داشت: «Minecraft به افراد اجازه می‌دهد تا پیشرفت در توسعه هوش مصنوعی را بسیار ساده‌تر مشاهده کنند. مردم با ظاهر و فضای این بازی آشنایی دارند و این امر ارزیابی را آسان‌تر می‌کند.»

Minecraft، به‌عنوان پرفروش‌ترین بازی تاریخ، حتی برای افرادی که هرگز آن را بازی نکرده‌اند نیز قابل تشخیص است. مثلاً یک کاربر می‌تواند با نگاهی به طراحی یک نمونه ساده مانند «مجموعه‌ای از بلوک‌هایی که یک آناناس را نشان می‌دهند»، کیفیت ساخت آن را قضاوت کند.

همکاری گسترده در ارزیابی مدل‌های هوش مصنوعی

پروژه MC-Bench در حال حاضر با مشارکت 8 نفر به‌عنوان داوطلب راه‌اندازی شده است. شرکت‌هایی مانند Anthropic، گوگل، OpenAI و علی‌بابا استفاده از محصولاتشان برای اجرای درخواست‌ها در این پلتفرم را تامین مالی کرده‌اند؛ اما همان‌طور که در وب‌سایت MC-Bench آمده، هیچ ارتباط رسمی دیگری میان این شرکت‌ها و پروژه وجود ندارد.

سینگ در این باره می‌گوید: «در حال حاضر، ما تنها روی ساخت‌های ساده تمرکز داریم تا نشان دهیم چه مسیری را از زمان مدل‌های GPT-3 طی کرده‌ایم. اما ممکن است به سمت برنامه‌های طولانی‌تر و وظایف هدفمندتر پیش برویم.» او همچنین به این موضوع اشاره کرد که بازی‌ها به‌عنوان یک بستر آزمایشی، امکان ارزیابی استدلال‌های عاملی را با امنیت و کنترل بیشتر نسبت به شرایط واقعی فراهم می‌کنند.

نقش بازی‌های دیگر در آزمایش قابلیت‌های هوش مصنوعی

از بازی‌هایی نظیر Pokémon Red، Street Fighter و Pictionary نیز در گذشته به‌عنوان معیارهای تجربی برای ارزیابی هوش مصنوعی استفاده شده است. این انتخاب‌ها به دلیل پیچیدگی سنجش عملکرد هوش مصنوعی انجام شده است؛ چرا که معیارهای سنتی اغلب باعث می‌شوند مدل‌ها در شرایط مطلوب خود مورد ارزیابی قرار گیرند.

این مدل‌ها به دلیل شیوه آموزش خود، در برخی از زمینه‌های خاص، نظیر حل مسائل مبتنی بر یادگیری حفظی یا استنتاج اولیه، عملکردی قابل‌توجه نشان می‌دهند. اما همین مدل‌ها ممکن است در موارد ساده‌تر مانند شمارش تعداد حرف «ر» در کلمه‌ی «توت‌فرنگی» به مشکل بربخورند. این تفاوت‌ها نشان‌دهنده پیچیدگی سنجش عملکرد واقعی هوش مصنوعی است.

به‌عنوان مثال، مدل Claude 3.7 توانسته است به دقت 62.3 درصدی در یک آزمون استاندارد مهندسی نرم‌افزار دست یابد؛ اما در بازی Pokémon ضعیف‌تر از مهارت‌های یک کودک پنج‌ساله عمل کرده است.

پتانسیل MC-Bench در ایجاد تحول در ارزیابی مدل‌های هوش مصنوعی

MC-Bench به‌صورت فنی یک معیار برنامه‌نویسی محسوب می‌شود، زیرا مدل‌ها باید کدهایی بنویسند که ساخت و سازهای درخواست‌شده، مانند «آدم‌برفی معروف» یا «کلبه‌ای دنج در ساحل گرمسیری»، را ایجاد کنند. با این حال، برای اغلب کاربران MC-Bench، ارزیابی ظاهر یک آدم‌برفی به‌مراتب ساده‌تر و قابل‌درک‌تر از بررسی کدهای برنامه‌نویسی است. همین قابلیت باعث شده تا این پروژه محبوبیت بیشتری پیدا کند و داده‌های بیشتری درباره عملکرد مدل‌ها جمع‌آوری شود.

آدی سینگ معتقد است که نتایج ثبت‌شده در MC-Bench نشان‌دهنده مسیری روشن در ارزیابی مدل‌ها است. او می‌گوید: «جدول رتبه‌بندی فعلی دقیقاً بازتابی از تجربه شخصی من در استفاده از این مدل‌هاست، که برخلاف بسیاری از معیارهای متنی ساده، نتیجه‌ای واقع‌گرایانه ارائه می‌دهد.» وی همچنین افزود که این پلتفرم می‌تواند ابزاری مفید برای شرکت‌ها باشد تا مطمئن شوند در مسیر صحیح توسعه هوش مصنوعی قرار دارند.

نتیجه‌گیری

استفاده از Minecraft به‌عنوان معیاری جدید برای سنجش توانایی‌های هوش مصنوعی، نشان‌دهنده رویکردهای خلاقانه‌تر در ارزیابی این فناوری است. از آنجایی که روش‌های سنتی هنوز قادر به بازتاب عملکرد واقعی مدل‌ها نیستند، ایجاد معیارهای بصری و قابل‌فهم مانند MC-Bench می‌تواند به ارتقای فرایند ارزیابی و توسعه هوش مصنوعی کمک کند. این نوآوری تنها آغاز مسیری است که در آینده می‌تواند منجر به ایجاد راهکارهای خلاقانه‌تر و کاربردی‌تر برای سنجش توانمندی‌های هوش مصنوعی شود.

چت با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا