بنیاد Arc Prize، یک مؤسسه غیرانتفاعی که توسط محقق برجسته هوش مصنوعی فرانسوا شولِت (François Chollet) تأسیس شده است، اخیراً اعلام کرد که آزمون جدیدی با نام ARC-AGI-2 برای سنجش هوش عمومی مدل‌های پیشرفته هوش مصنوعی ایجاد کرده است. این آزمون به عنوان یکی از چالش‌برانگیزترین معیارها برای ارزیابی توانایی مدل‌های هوش مصنوعی شناخته شده و تا کنون، بیشتر مدل‌ها در آن ناکام مانده‌اند.

نتایج اولیه آزمون ARC-AGI-2

براساس اطلاعات منتشرشده در رتبه‌بندی این آزمون توسط بنیاد Arc Prize، مدل‌های «استنتاجی» مانند o1-pro از شرکت OpenAI و R1 از DeepSeek تنها توانسته‌اند بین ۱ تا ۱.۳ درصد در این آزمون امتیاز کسب کنند. همچنین مدل‌های قدرتمند دیگر مانند GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Flash، امتیازی مشابه، حدود ۱ درصد به‌ دست آورده‌اند.

چالش‌های آزمون و رویکرد طراحی آن

آزمون ARC-AGI-2 با استفاده از مسائل مشابه پازل طراحی شده است که در آن مدل‌های هوش مصنوعی باید الگوهای بصری را از میان مجموعه‌ای از مربع‌های رنگی شناسایی کرده و پاسخ درست را با تولید شبکه صحیح ارائه کنند. این چالش‌ها به گونه‌ای طراحی شده‌اند که مدل‌ها مجبور شوند با مسائل کاملاً جدید و ناشناخته روبرو شوند و توانایی‌شان در یادگیری و انطباق آزمایش شود.

عملکرد انسان در مقابل هوش مصنوعی

برای تعیین سطح پایه انسانی، بیش از ۴۰۰ نفر در آزمون ARC-AGI-2 مشارکت داشتند. میانگین نتایج این گروه نشان داد که انسان‌ها توانستند ۶۰ درصد از سوالات آزمون را به‌درستی پاسخ دهند؛ عملکردی بسیار بالاتر از تمامی مدل‌های هوش مصنوعی تاکنون.

پیشرفت در آزمون نسبت به نسخه قبلی

در یک پست منتشرشده در شبکه اجتماعی X، François Chollet اظهار داشت که ARC-AGI-2 با رویکردهای جدید، معیاری بهتر برای سنجش هوش واقعی مدل‌های هوش مصنوعی نسبت به نسخه قبلی آزمون، یعنی ARC-AGI-1، فراهم کرده است. این آزمون جدید تلاش می‌کند مدل‌های هوش مصنوعی را از رویکرد‌های سنتی مانند “زور محاسباتی” برای حل مسائل دور کند. به جای تکیه بر توان پردازشی، ARC-AGI-2 بر معیار “کارایی” تمرکز دارد و مدل‌ها را ملزم می‌سازد که الگوها را “در لحظه” تفسیر کنند، نه اینکه مبتنی بر حفظیات عمل کنند.

اهمیت کارایی در هوش مصنوعی

گِرِگ کامرَدت (Greg Kamradt)، یکی دیگر از بنیان‌گذاران بنیاد Arc Prize، در مطلبی عنوان کرد: «هوش تنها به توانایی حل مسائل یا کسب امتیاز بالا تعریف نمی‌شود. بلکه کارایی در کسب و به‌کارگیری این توانایی‌ها نقش حیاتی و تعیین‌کننده دارد. سوال کلیدی این است که نه تنها “آیا AI می‌تواند مهارت حل یک مسئله را کسب کند؟” بلکه “این توانایی با چه سطح از کارایی یا هزینه حاصل می‌شود؟”»

تغییرات چشم‌گیر در مدل‌های پیشرفته

در حالی که نسخه اول آزمون ARC-AGI-1 پنج سال بدون شکست باقی مانده بود، در دسامبر ۲۰۲۴ مدل پیشرفته OpenAI به نام o3 توانست امتیاز ۷۵.۷ درصد را در این آزمون کسب کند و عملکرد برابر با انسان داشته باشد. با این حال، نسخه بهینه‌تر (o3-low) از همین مدل تنها توانست ۴ درصد در ARC-AGI-2 امتیاز کسب کند، در حالی که هزینه محاسباتی هر مسئله معادل ۲۰۰ دلار بود.

چشم‌انداز آینده: مسابقه Arc Prize 2025

با معرفی ARC-AGI-2، بسیاری از متخصصان فناوری به اهمیت ایجاد معیارهای جدید برای سنجش هوش مصنوعی اشاره کرده‌اند. توماس وولف، یکی از بنیان‌گذاران Hugging Face، اخیراً در مصاحبه‌ای بیان کرده که صنعت هوش مصنوعی هنوز فاقد آزمون‌های کافی برای ارزیابی ویژگی‌های کلیدی هوش عمومی مصنوعی، از جمله «خلاقیت» است. در همین راستا، بنیاد Arc Prize نیز نسخه جدید مسابقات خود به نام Arc Prize 2025 را اعلام کرده است که هدف آن دستیابی به دقت ۸۵ درصد در آزمون ARC-AGI-2 با صرف هزینه‌ای تنها معادل ۰.۴۲ دلار برای هر مسئله است.

نتیجه‌گیری

آزمون ARC-AGI-2 چشم‌انداز جدیدی در ارزیابی هوش عمومی مدل‌های پیشرفته باز کرده و چالش‌هایی حقیقی برای توسعه‌دهندگان ایجاد کرده است. این حرکت نشان‌دهنده تلاش مستمر برای پیشبرد معیارهای هوش مصنوعی و نزدیک‌تر شدن به دستیابی به هوش عمومی مصنوعی واقعی است؛ الگویی که بتواند فراتر از داده‌های آموزشی خود رود و به شکل مؤثری با مسائل جدید روبرو شود.

تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا