آمازون وب سرویس‌ها (AWS) به تازگی از راه‌اندازی SWE-PolyBench، یک بنچمارک جامع چندزبانه، خبر داد. این ابزار به‌منظور ارزیابی دستیاران کدنویسی مبتنی بر هوش مصنوعی طراحی شده و قادر است عملکرد آنها را در مواجهه با زبان‌های برنامه‌نویسی مختلف و شرایط واقعی بسنجید. شیوه‌نامه یاد شده به محدودیت‌های موجود در چارچوب‌های ارزیابی فعلی پاسخ می‌دهد و به محققان و توسعه‌دهندگان این امکان را می‌دهد تا رویکردهای جدیدی برای سنجش توانایی‌های دستیاران هوش مصنوعی در کار با کدهای پیچیده بیابند.

آنوپ دیوراس، مدیر علوم کاربردی در حوزه برنامه‌های هوش مصنوعی تجاری و تجربه‌های توسعه‌دهنده در AWS، در گفت‌وگویی با رسانه‌ها گفت: «اکنون این بنچمارک وجود دارد که می‌توانند بر روی آن ارزیابی کنند تا ببینند آیا دستیاران کدنویسی قادر به حل وظایف پیچیده برنامه‌نویسی هستند یا خیر.» او افزود: «جهان واقعی، شما را با وظایف پیچیده‌تری مواجه می‌کند. برای رفع یک باگ یا توسعه ویژگی جدید، نیاز است که چندین فایل را ویرایش کنید، نه فقط یک فایل.»

انتشار SWE-PolyBench همزمان با افزایش محبوبیت ابزارهای کدنویسی مبتنی بر هوش مصنوعی صورت می‌گیرد، که شرکت‌های بزرگ فناوری آنها را در محیط‌های توسعه و محصولات مستقل ادغام می‌کنند. در حالی که این ابزارها نشان‌دهنده توانمندی‌های چشمگیر خود هستند، ارزیابی عملکرد آنها به ویژه در زبا‌ن‌های مختلف برنامه‌نویسی و پیچیدگی‌های مختلف وظایف، هنوز یک چالش محسوب می‌شود.

SWE-PolyBench شامل بیش از ۲,۰۰۰ چالش کدنویسی متنوع است که از مشکلات واقعی در گیت‌هاب استخراج شده و به چهار زبان برنامه‌نویسی شامل جاوا (۱۶۵ وظیفه)، جاوا اسکریپت (۱,۰۱۷ وظیفه)، تایپ‌اسکریپت (۷۲۹ وظیفه) و پایتون (۱۹۹ وظیفه) می‌پردازد. همچنین بنچمارک مذکور شامل یک زیرمجموعه استراتفیک از ۵۰۰ مشکل (SWE-PolyBench500) نیز می‌باشد که برای آزمایشات سریع‌تر طراحی شده است.

دیوراس به تفاوت‌های موجود در بنچمارک‌های قبلی اشاره کرده و گفت: «تنوع وظایف و تنوع زبان‌های برنامه‌نویسی در بنچمارک‌های موجود کمبود داشت. در SWE-Bench فقط یک زبان برنامه‌نویسی، یعنی پایتون و تنها یک نوع وظیفه یعنی رفع باگ‌ها وجود دارد. در PolyBench، برخلاف SWE-Bench، ما این بنچمارک را گسترش داده‌ایم تا شامل سه زبان اضافی باشد.»

یکی از نوآوری‌های کلیدی در SWE-PolyBench، معرفی معیارهای ارزیابی پیشرفته‌تری است که فراتر از نرخ عبور سنتی عمل می‌کند، که به سادگی به این می‌پردازد که آیا یک پچ تولید شده موفق به حل یک مشکل کدنویسی شده است یا خیر. دیوراس افزود: «معیارهای ارزیابی این دستیاران کدنویسی عمدتاً از طریق متریک به نام نرخ عبور انجام می‌شود.»

تحقیقات آمازون بر روی چندین دستیار کدنویسی متن‌باز نشان داده است که پایتون به‌عنوان قوی‌ترین زبان برای تمام نمایندگان آزمایش شده باقی مانده و عملکرد آنها به طور قابل توجهی با افزایش پیچیدگی وظایف، به ویژه زمانی که نیاز به تغییرات در سه یا چند فایل باشد، کاهش می‌یابد.

با توجه به تنوع و پیچیدگی وظایف در توسعه نرم‌افزارهای واقعی، SWE-PolyBench در یک برهه کلیدی در توسعه دستیاران کدنویسی هوش مصنوعی معرفی شده است. این ابزار به‌ویژه در محیط‌های شرکتی که توسعه چندزبانه رایج است، از اهمیت ویژه‌ای برخوردار است. آمازون کل چارچوب SWE-PolyBench را برای دسترسی عمومی منتشر کرده است و به دنبال گسترش آن به زبان‌ها و وظایف بیشتری در آینده است.

مفهوم کلی SWE-PolyBench به تصمیم‌گیرندگان در شرکت‌ها این امکان را می‌دهد که توانمندی‌های واقعی ابزارهای کدنویسی هوش مصنوعی را در برابر هیاهوهای بازاریابی ارزیابی کنند. در نهایت، آزمایش واقعی یک دستیار کدنویسی هوش مصنوعی به این بستگی دارد که آیا آن قادر به مدیریت پیچیدگی‌های واقعی پروژه‌های نرم‌افزاری است یا خیر، چیزی که توسعه‌دهندگان روزانه با آن دست و پنجه نرم می‌کنند.

راهنمای هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا