چالش جدید کدنویسی هوش مصنوعی برنده نخستین دوره خود را معرفی کرد و استاندارد جدیدی برای مهندسین نرم‌افزار مبتنی بر هوش مصنوعی تعیین نمود. در روز چهارشنبه و در ساعت ۵ بعدازظهر به وقت پاسیفیک، مؤسسه غیر انتفاعی لود اعلام کرد که نخستین برنده جایزه K، یک چالش کدنویسی چند مرحله‌ای که توسط اندی کانوینسکی، یکی از بنیان‌گذاران Databricks و Perplexity، راه‌اندازی شده است، انتخاب شده است. برنده این مسابقه، یک مهندس درخواست از برزیل به نام ادواردو روچا د آندراده است که مبلغ ۵۰,۰۰۰ دلار جایزه دریافت خواهد کرد. اما نکته جالب‌تر از این پیروزی، نمره نهایی اوست: او تنها با پاسخ‌های صحیح به ۷.۵ درصد از سوالات آزمون، موفق به کسب این عنوان شده است.

کانوینسکی در این باره گفت: «خوشحالیم که معیاری ساخته‌ایم که واقعاً دشوار است. معیارهای سنجش باید دشوار باشند تا ارزشمند باشند.» او ادامه داد: «نمرات می‌توانستند متفاوت باشند اگر آزمایشگاه‌های بزرگ با بزرگترین مدل‌های خود وارد رقابت می‌شدند. اما هدف همین است. جایزه K به‌صورت آفلاین و با محاسبات محدود برگزار می‌شود، بنابراین به نفع مدل‌های کوچکتر و باز است. من از این موضوع استقبال می‌کنم؛ این امر سطح رقابت را برابر می‌کند.»

کانوینسکی همچنین یک میلیون دلار به نخستین مدل متن‌باز که بتواند بیش از ۹۰ درصد در این آزمون کسب کند، اختصاص داده است. مطابق با سیستم معروف SWE-Bench، جایزه K مدل‌ها را در برابر مسائل مشخّص شده در GitHub آزمایش می‌کند تا بسنجد که مدل‌ها چقدر خوب می‌توانند با مشکلات برنامه‌نویسی واقعی روبه‌رو شوند. با این حال، در حالی که SWE-Bench بر اساس مجموعه‌ای ثابت از مسائل است که مدل‌ها می‌توانند به آن آموزش ببینند، جایزه K به عنوان یک «نسخه ایمن از SWE-Bench» طراحی شده است که با استفاده از یک سیستم ورودی زمان‌دار از هرگونه آموزش خاصی جلوگیری می‌کند.

برای مرحله اول، مدل‌ها باید تا تاریخ ۱۲ مارس ارسال می‌شدند. برگزارکنندگان جایزه K سپس آزمون را با استفاده از تنها مسائل GitHub که پس از این تاریخ شناسایی شده‌اند، طراحی کردند. نمره ۷.۵ درصد به‌طور قابل توجهی با نمره ۷۵ درصد در آزمون آسان‌تر “تأیید شده” و ۳۴ درصد در آزمون سخت‌تر “کامل” SWE-Bench در تضاد است. کانوینسکی هنوز مطمئن نیست که آیا این تفاوت به خاطر آلودگی در SWE-Bench است یا ناشی از چالش جمع‌آوری مسائل جدید از GitHub، اما انتظار دارد که پروژه جایزه K به زودی این سوال را پاسخ دهد.

او به TechCrunch گفت: «به مرور زمان که اجرای بیشتری از این چالش داشته باشیم، درک بهتری خواهیم داشت، زیرا انتظار داریم که افراد با دینامیک‌های رقابت در این آزمون هر چند ماه یکبار سازگار شوند.» با توجه به دنیای وسیع ابزارهای کدنویسی هوش مصنوعی که به‌طور عمومی در دسترس هستند، ممکن است به نظر برسد که عدم موفقیت در اینجا عجیب است، اما با ساده‌تر شدن معیارها، بسیاری از منتقدان پروژه‌هایی مانند جایزه K را مرحله‌ای ضروری برای حل مشکل رو به رشد ارزیابی هوش مصنوعی می‌دانند.

سایاش کاپور، محقق دانشگاه پرینستون، در این زمینه می‌گوید: «من نسبت به طراحی آزمون‌های جدید برای معیارهای موجود بسیار خوشبین هستم. بدون چنین آزمایش‌هایی، نمی‌توانیم بگوییم که مشکل از آلودگی است یا حتی فقط هدف‌گذاری در جدول رده‌بندی SWE-Bench با دخالت انسان.» برای کانوینسکی، این تنها یک معیار بهتر نیست، بلکه یک چالش عمومی برای باقی صنعت است. او می‌گوید: «اگر به هیاهو گوش دهیم، به نظر می‌رسد که باید پزشکان، وکلا و مهندسین نرم‌افزار هوش مصنوعی ببینیم؛ اما این حقیقت ندارد. اگر حتی نتوانیم بیش از ۱۰ درصد در یک SWE-Bench بدون آلودگی به دست آوریم، این یک واقعیت سنجی برای من است.»

دستیار صوتی هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا