بنیاد Arc Prize، یک مؤسسه غیرانتفاعی که توسط محقق برجسته هوش مصنوعی فرانسوا شولِت (François Chollet) تأسیس شده است، اخیراً اعلام کرد که آزمون جدیدی با نام ARC-AGI-2 برای سنجش هوش عمومی مدلهای پیشرفته هوش مصنوعی ایجاد کرده است. این آزمون به عنوان یکی از چالشبرانگیزترین معیارها برای ارزیابی توانایی مدلهای هوش مصنوعی شناخته شده و تا کنون، بیشتر مدلها در آن ناکام ماندهاند.
نتایج اولیه آزمون ARC-AGI-2
براساس اطلاعات منتشرشده در رتبهبندی این آزمون توسط بنیاد Arc Prize، مدلهای «استنتاجی» مانند o1-pro از شرکت OpenAI و R1 از DeepSeek تنها توانستهاند بین ۱ تا ۱.۳ درصد در این آزمون امتیاز کسب کنند. همچنین مدلهای قدرتمند دیگر مانند GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Flash، امتیازی مشابه، حدود ۱ درصد به دست آوردهاند.
چالشهای آزمون و رویکرد طراحی آن
آزمون ARC-AGI-2 با استفاده از مسائل مشابه پازل طراحی شده است که در آن مدلهای هوش مصنوعی باید الگوهای بصری را از میان مجموعهای از مربعهای رنگی شناسایی کرده و پاسخ درست را با تولید شبکه صحیح ارائه کنند. این چالشها به گونهای طراحی شدهاند که مدلها مجبور شوند با مسائل کاملاً جدید و ناشناخته روبرو شوند و تواناییشان در یادگیری و انطباق آزمایش شود.
عملکرد انسان در مقابل هوش مصنوعی
برای تعیین سطح پایه انسانی، بیش از ۴۰۰ نفر در آزمون ARC-AGI-2 مشارکت داشتند. میانگین نتایج این گروه نشان داد که انسانها توانستند ۶۰ درصد از سوالات آزمون را بهدرستی پاسخ دهند؛ عملکردی بسیار بالاتر از تمامی مدلهای هوش مصنوعی تاکنون.
پیشرفت در آزمون نسبت به نسخه قبلی
در یک پست منتشرشده در شبکه اجتماعی X، François Chollet اظهار داشت که ARC-AGI-2 با رویکردهای جدید، معیاری بهتر برای سنجش هوش واقعی مدلهای هوش مصنوعی نسبت به نسخه قبلی آزمون، یعنی ARC-AGI-1، فراهم کرده است. این آزمون جدید تلاش میکند مدلهای هوش مصنوعی را از رویکردهای سنتی مانند “زور محاسباتی” برای حل مسائل دور کند. به جای تکیه بر توان پردازشی، ARC-AGI-2 بر معیار “کارایی” تمرکز دارد و مدلها را ملزم میسازد که الگوها را “در لحظه” تفسیر کنند، نه اینکه مبتنی بر حفظیات عمل کنند.
اهمیت کارایی در هوش مصنوعی
گِرِگ کامرَدت (Greg Kamradt)، یکی دیگر از بنیانگذاران بنیاد Arc Prize، در مطلبی عنوان کرد: «هوش تنها به توانایی حل مسائل یا کسب امتیاز بالا تعریف نمیشود. بلکه کارایی در کسب و بهکارگیری این تواناییها نقش حیاتی و تعیینکننده دارد. سوال کلیدی این است که نه تنها “آیا AI میتواند مهارت حل یک مسئله را کسب کند؟” بلکه “این توانایی با چه سطح از کارایی یا هزینه حاصل میشود؟”»
تغییرات چشمگیر در مدلهای پیشرفته
در حالی که نسخه اول آزمون ARC-AGI-1 پنج سال بدون شکست باقی مانده بود، در دسامبر ۲۰۲۴ مدل پیشرفته OpenAI به نام o3 توانست امتیاز ۷۵.۷ درصد را در این آزمون کسب کند و عملکرد برابر با انسان داشته باشد. با این حال، نسخه بهینهتر (o3-low) از همین مدل تنها توانست ۴ درصد در ARC-AGI-2 امتیاز کسب کند، در حالی که هزینه محاسباتی هر مسئله معادل ۲۰۰ دلار بود.
چشمانداز آینده: مسابقه Arc Prize 2025
با معرفی ARC-AGI-2، بسیاری از متخصصان فناوری به اهمیت ایجاد معیارهای جدید برای سنجش هوش مصنوعی اشاره کردهاند. توماس وولف، یکی از بنیانگذاران Hugging Face، اخیراً در مصاحبهای بیان کرده که صنعت هوش مصنوعی هنوز فاقد آزمونهای کافی برای ارزیابی ویژگیهای کلیدی هوش عمومی مصنوعی، از جمله «خلاقیت» است. در همین راستا، بنیاد Arc Prize نیز نسخه جدید مسابقات خود به نام Arc Prize 2025 را اعلام کرده است که هدف آن دستیابی به دقت ۸۵ درصد در آزمون ARC-AGI-2 با صرف هزینهای تنها معادل ۰.۴۲ دلار برای هر مسئله است.
نتیجهگیری
آزمون ARC-AGI-2 چشمانداز جدیدی در ارزیابی هوش عمومی مدلهای پیشرفته باز کرده و چالشهایی حقیقی برای توسعهدهندگان ایجاد کرده است. این حرکت نشاندهنده تلاش مستمر برای پیشبرد معیارهای هوش مصنوعی و نزدیکتر شدن به دستیابی به هوش عمومی مصنوعی واقعی است؛ الگویی که بتواند فراتر از دادههای آموزشی خود رود و به شکل مؤثری با مسائل جدید روبرو شود.