مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری ناکام‌اند، نتایج مطالعه مایکروسافت نشان می‌دهد

مدل‌های هوش مصنوعی از شرکت‌های OpenAI، Anthropic و دیگر آزمایشگاه‌های برتر هوش مصنوعی به‌طور فزاینده‌ای برای کمک به وظایف برنامه‌نویسی مورد استفاده قرار می‌گیرند. در اکتبر گذشته، سوندار پیچای، مدیرعامل گوگل، اعلام کرد که ۲۵ درصد از کدهای جدید در این شرکت توسط هوش مصنوعی تولید می‌شود و مارک زاکربرگ، مدیرعامل متا، نیز ابراز کرد که قصد دارد مدل‌های کدنویسی هوش مصنوعی را به‌طور گسترده‌تری در این غول شبکه‌های اجتماعی به کار گیرد. با این وجود، حتی برخی از بهترین مدل‌های موجود نیز در رفع اشکالات نرم‌افزاری که برنامه‌نویسان با تجربه را به چالش نمی‌کشد، با مشکلاتی مواجه هستند.

مطالعه‌ای جدید از سوی مرکز تحقیقات مایکروسافت نشان می‌دهد که مدل‌هایی از جمله Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI در تست معیار توسعه نرم‌افزار به نام SWE-bench Lite، در حل بسیاری از مشکلات با شکست مواجه شدند. این یافته‌ها یادآور این واقعیت است که با وجود ادعای جسورانه شرکت‌هایی مانند OpenAI، هوش مصنوعی هنوز نمی‌تواند با کارشناسان انسانی در زمینه‌های مانند کدنویسی رقابت کند.

نویسندگان این مطالعه، نه مدل مختلف را به عنوان پایه‌ای برای یک “عاملی بر اساس یک دستور واحد” آزمایش کردند که به ابزارهای عیب‌یابی مختلفی از جمله دیباگر پایتون دسترسی داشت. آن‌ها از این عامل خواستند تا مجموعه‌ای انتخابی از ۳۰۰ وظیفه عیب‌یابی نرم‌افزاری از SWE-bench Lite را حل کند. بر اساس اظهار نظر نویسندگان، حتی زمانی که مدل‌ها از قدرت و تازگی بیشتری برخوردار بودند، این عامل به ندرت توانست بیش از نیمی از وظایف عیب‌یابی را با موفقیت به انجام برساند. Claude 3.7 Sonnet بالاترین نرخ موفقیت میانگین (۴۸.۴٪) را داشت، در حالی که OpenAI’s o1 با ۳۰.۲٪ و o3-mini با ۲۲.۱٪ در رده‌های بعدی قرار گرفتند.

چرا عملکرد این مدل‌ها چندان چشمگیر نیست؟ برخی از مدل‌ها در استفاده از ابزارهای عیب‌یابی موجود و درک نحوه کمک این ابزارها به حل مشکلات مختلف با دشواری مواجه شدند. اما مشکل بزرگ‌تر، کمبود داده‌ها است. نویسندگان معتقدند که در داده‌های آموزشی کنونی، نماینده‌های کافی از “فرآیندهای تصمیم‌گیری متوالی” — یعنی ردپای عیب‌یابی انسانی — وجود ندارد. آن‌ها بر این باورند که آموزش یا تنظیم دقیق این مدل‌ها می‌تواند آن‌ها را به عیب‌یاب‌های تعاملی بهتری تبدیل کند، اما این نیازمند داده‌های تخصصی است، به عنوان مثال، داده‌های حرکتی که تعاملات عامل‌ها با دیباگر را برای جمع‌آوری اطلاعات لازم قبل از پیشنهاد یک راه‌حل عیب‌یابی ثبت می‌کند.

یافته‌های این مطالعه به جزئیات بیشتری در مورد یک مشکل پایدار در مدل‌ها اشاره دارد. این نتایج احتمالاً شور و شوق سرمایه‌گذاران در زمینه ابزارهای کدنویسی پشتیبانی شده توسط هوش مصنوعی را تحت تأثیر قرار نخواهد داد، اما امیدواریم که باعث شود توسعه‌دهندگان و مدیران آن‌ها دوباره در مورد واگذاری کنترل فرآیند کدنویسی به هوش مصنوعی تجدید نظر کنند. در عین حال، تعداد فزاینده‌ای از رهبران فناوری بر این باورند که هوش مصنوعی مشاغل برنامه‌نویسی را خودکار نخواهد کرد. بیل گیتس، یکی از بنیان‌گذاران مایکروسافت، اظهار داشته است که فکر می‌کند حرفه برنامه‌نویسی در آینده نیز وجود خواهد داشت، و همین نظر را مدیران شرکت‌های نام‌آشنایی همچون Replit و Okta نیز ابراز کرده‌اند.

تبدیل گفتار به نوشتار

مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری ناکام‌اند، نتایج مطالعه مایکروسافت نشان می‌دهد

دیدگاه‌ خود را بنویسید لغو پاسخ