آمازون وب سرویسها (AWS) به تازگی از راهاندازی SWE-PolyBench، یک بنچمارک جامع چندزبانه، خبر داد. این ابزار بهمنظور ارزیابی دستیاران کدنویسی مبتنی بر هوش مصنوعی طراحی شده و قادر است عملکرد آنها را در مواجهه با زبانهای برنامهنویسی مختلف و شرایط واقعی بسنجید. شیوهنامه یاد شده به محدودیتهای موجود در چارچوبهای ارزیابی فعلی پاسخ میدهد و به محققان و توسعهدهندگان این امکان را میدهد تا رویکردهای جدیدی برای سنجش تواناییهای دستیاران هوش مصنوعی در کار با کدهای پیچیده بیابند.
آنوپ دیوراس، مدیر علوم کاربردی در حوزه برنامههای هوش مصنوعی تجاری و تجربههای توسعهدهنده در AWS، در گفتوگویی با رسانهها گفت: «اکنون این بنچمارک وجود دارد که میتوانند بر روی آن ارزیابی کنند تا ببینند آیا دستیاران کدنویسی قادر به حل وظایف پیچیده برنامهنویسی هستند یا خیر.» او افزود: «جهان واقعی، شما را با وظایف پیچیدهتری مواجه میکند. برای رفع یک باگ یا توسعه ویژگی جدید، نیاز است که چندین فایل را ویرایش کنید، نه فقط یک فایل.»
انتشار SWE-PolyBench همزمان با افزایش محبوبیت ابزارهای کدنویسی مبتنی بر هوش مصنوعی صورت میگیرد، که شرکتهای بزرگ فناوری آنها را در محیطهای توسعه و محصولات مستقل ادغام میکنند. در حالی که این ابزارها نشاندهنده توانمندیهای چشمگیر خود هستند، ارزیابی عملکرد آنها به ویژه در زبانهای مختلف برنامهنویسی و پیچیدگیهای مختلف وظایف، هنوز یک چالش محسوب میشود.
SWE-PolyBench شامل بیش از ۲,۰۰۰ چالش کدنویسی متنوع است که از مشکلات واقعی در گیتهاب استخراج شده و به چهار زبان برنامهنویسی شامل جاوا (۱۶۵ وظیفه)، جاوا اسکریپت (۱,۰۱۷ وظیفه)، تایپاسکریپت (۷۲۹ وظیفه) و پایتون (۱۹۹ وظیفه) میپردازد. همچنین بنچمارک مذکور شامل یک زیرمجموعه استراتفیک از ۵۰۰ مشکل (SWE-PolyBench500) نیز میباشد که برای آزمایشات سریعتر طراحی شده است.
دیوراس به تفاوتهای موجود در بنچمارکهای قبلی اشاره کرده و گفت: «تنوع وظایف و تنوع زبانهای برنامهنویسی در بنچمارکهای موجود کمبود داشت. در SWE-Bench فقط یک زبان برنامهنویسی، یعنی پایتون و تنها یک نوع وظیفه یعنی رفع باگها وجود دارد. در PolyBench، برخلاف SWE-Bench، ما این بنچمارک را گسترش دادهایم تا شامل سه زبان اضافی باشد.»
یکی از نوآوریهای کلیدی در SWE-PolyBench، معرفی معیارهای ارزیابی پیشرفتهتری است که فراتر از نرخ عبور سنتی عمل میکند، که به سادگی به این میپردازد که آیا یک پچ تولید شده موفق به حل یک مشکل کدنویسی شده است یا خیر. دیوراس افزود: «معیارهای ارزیابی این دستیاران کدنویسی عمدتاً از طریق متریک به نام نرخ عبور انجام میشود.»
تحقیقات آمازون بر روی چندین دستیار کدنویسی متنباز نشان داده است که پایتون بهعنوان قویترین زبان برای تمام نمایندگان آزمایش شده باقی مانده و عملکرد آنها به طور قابل توجهی با افزایش پیچیدگی وظایف، به ویژه زمانی که نیاز به تغییرات در سه یا چند فایل باشد، کاهش مییابد.
با توجه به تنوع و پیچیدگی وظایف در توسعه نرمافزارهای واقعی، SWE-PolyBench در یک برهه کلیدی در توسعه دستیاران کدنویسی هوش مصنوعی معرفی شده است. این ابزار بهویژه در محیطهای شرکتی که توسعه چندزبانه رایج است، از اهمیت ویژهای برخوردار است. آمازون کل چارچوب SWE-PolyBench را برای دسترسی عمومی منتشر کرده است و به دنبال گسترش آن به زبانها و وظایف بیشتری در آینده است.
مفهوم کلی SWE-PolyBench به تصمیمگیرندگان در شرکتها این امکان را میدهد که توانمندیهای واقعی ابزارهای کدنویسی هوش مصنوعی را در برابر هیاهوهای بازاریابی ارزیابی کنند. در نهایت، آزمایش واقعی یک دستیار کدنویسی هوش مصنوعی به این بستگی دارد که آیا آن قادر به مدیریت پیچیدگیهای واقعی پروژههای نرمافزاری است یا خیر، چیزی که توسعهدهندگان روزانه با آن دست و پنجه نرم میکنند.