چالش جدید کدنویسی هوش مصنوعی برنده نخستین دوره خود را معرفی کرد و استاندارد جدیدی برای مهندسین نرمافزار مبتنی بر هوش مصنوعی تعیین نمود. در روز چهارشنبه و در ساعت ۵ بعدازظهر به وقت پاسیفیک، مؤسسه غیر انتفاعی لود اعلام کرد که نخستین برنده جایزه K، یک چالش کدنویسی چند مرحلهای که توسط اندی کانوینسکی، یکی از بنیانگذاران Databricks و Perplexity، راهاندازی شده است، انتخاب شده است. برنده این مسابقه، یک مهندس درخواست از برزیل به نام ادواردو روچا د آندراده است که مبلغ ۵۰,۰۰۰ دلار جایزه دریافت خواهد کرد. اما نکته جالبتر از این پیروزی، نمره نهایی اوست: او تنها با پاسخهای صحیح به ۷.۵ درصد از سوالات آزمون، موفق به کسب این عنوان شده است.
کانوینسکی در این باره گفت: «خوشحالیم که معیاری ساختهایم که واقعاً دشوار است. معیارهای سنجش باید دشوار باشند تا ارزشمند باشند.» او ادامه داد: «نمرات میتوانستند متفاوت باشند اگر آزمایشگاههای بزرگ با بزرگترین مدلهای خود وارد رقابت میشدند. اما هدف همین است. جایزه K بهصورت آفلاین و با محاسبات محدود برگزار میشود، بنابراین به نفع مدلهای کوچکتر و باز است. من از این موضوع استقبال میکنم؛ این امر سطح رقابت را برابر میکند.»
کانوینسکی همچنین یک میلیون دلار به نخستین مدل متنباز که بتواند بیش از ۹۰ درصد در این آزمون کسب کند، اختصاص داده است. مطابق با سیستم معروف SWE-Bench، جایزه K مدلها را در برابر مسائل مشخّص شده در GitHub آزمایش میکند تا بسنجد که مدلها چقدر خوب میتوانند با مشکلات برنامهنویسی واقعی روبهرو شوند. با این حال، در حالی که SWE-Bench بر اساس مجموعهای ثابت از مسائل است که مدلها میتوانند به آن آموزش ببینند، جایزه K به عنوان یک «نسخه ایمن از SWE-Bench» طراحی شده است که با استفاده از یک سیستم ورودی زماندار از هرگونه آموزش خاصی جلوگیری میکند.
برای مرحله اول، مدلها باید تا تاریخ ۱۲ مارس ارسال میشدند. برگزارکنندگان جایزه K سپس آزمون را با استفاده از تنها مسائل GitHub که پس از این تاریخ شناسایی شدهاند، طراحی کردند. نمره ۷.۵ درصد بهطور قابل توجهی با نمره ۷۵ درصد در آزمون آسانتر “تأیید شده” و ۳۴ درصد در آزمون سختتر “کامل” SWE-Bench در تضاد است. کانوینسکی هنوز مطمئن نیست که آیا این تفاوت به خاطر آلودگی در SWE-Bench است یا ناشی از چالش جمعآوری مسائل جدید از GitHub، اما انتظار دارد که پروژه جایزه K به زودی این سوال را پاسخ دهد.
او به TechCrunch گفت: «به مرور زمان که اجرای بیشتری از این چالش داشته باشیم، درک بهتری خواهیم داشت، زیرا انتظار داریم که افراد با دینامیکهای رقابت در این آزمون هر چند ماه یکبار سازگار شوند.» با توجه به دنیای وسیع ابزارهای کدنویسی هوش مصنوعی که بهطور عمومی در دسترس هستند، ممکن است به نظر برسد که عدم موفقیت در اینجا عجیب است، اما با سادهتر شدن معیارها، بسیاری از منتقدان پروژههایی مانند جایزه K را مرحلهای ضروری برای حل مشکل رو به رشد ارزیابی هوش مصنوعی میدانند.
سایاش کاپور، محقق دانشگاه پرینستون، در این زمینه میگوید: «من نسبت به طراحی آزمونهای جدید برای معیارهای موجود بسیار خوشبین هستم. بدون چنین آزمایشهایی، نمیتوانیم بگوییم که مشکل از آلودگی است یا حتی فقط هدفگذاری در جدول ردهبندی SWE-Bench با دخالت انسان.» برای کانوینسکی، این تنها یک معیار بهتر نیست، بلکه یک چالش عمومی برای باقی صنعت است. او میگوید: «اگر به هیاهو گوش دهیم، به نظر میرسد که باید پزشکان، وکلا و مهندسین نرمافزار هوش مصنوعی ببینیم؛ اما این حقیقت ندارد. اگر حتی نتوانیم بیش از ۱۰ درصد در یک SWE-Bench بدون آلودگی به دست آوریم، این یک واقعیت سنجی برای من است.»