مدلهای هوش مصنوعی از شرکتهای OpenAI، Anthropic و دیگر آزمایشگاههای برتر هوش مصنوعی بهطور فزایندهای برای کمک به وظایف برنامهنویسی مورد استفاده قرار میگیرند. در اکتبر گذشته، سوندار پیچای، مدیرعامل گوگل، اعلام کرد که ۲۵ درصد از کدهای جدید در این شرکت توسط هوش مصنوعی تولید میشود و مارک زاکربرگ، مدیرعامل متا، نیز ابراز کرد که قصد دارد مدلهای کدنویسی هوش مصنوعی را بهطور گستردهتری در این غول شبکههای اجتماعی به کار گیرد. با این وجود، حتی برخی از بهترین مدلهای موجود نیز در رفع اشکالات نرمافزاری که برنامهنویسان با تجربه را به چالش نمیکشد، با مشکلاتی مواجه هستند.
مطالعهای جدید از سوی مرکز تحقیقات مایکروسافت نشان میدهد که مدلهایی از جمله Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI در تست معیار توسعه نرمافزار به نام SWE-bench Lite، در حل بسیاری از مشکلات با شکست مواجه شدند. این یافتهها یادآور این واقعیت است که با وجود ادعای جسورانه شرکتهایی مانند OpenAI، هوش مصنوعی هنوز نمیتواند با کارشناسان انسانی در زمینههای مانند کدنویسی رقابت کند.
نویسندگان این مطالعه، نه مدل مختلف را به عنوان پایهای برای یک “عاملی بر اساس یک دستور واحد” آزمایش کردند که به ابزارهای عیبیابی مختلفی از جمله دیباگر پایتون دسترسی داشت. آنها از این عامل خواستند تا مجموعهای انتخابی از ۳۰۰ وظیفه عیبیابی نرمافزاری از SWE-bench Lite را حل کند. بر اساس اظهار نظر نویسندگان، حتی زمانی که مدلها از قدرت و تازگی بیشتری برخوردار بودند، این عامل به ندرت توانست بیش از نیمی از وظایف عیبیابی را با موفقیت به انجام برساند. Claude 3.7 Sonnet بالاترین نرخ موفقیت میانگین (۴۸.۴٪) را داشت، در حالی که OpenAI’s o1 با ۳۰.۲٪ و o3-mini با ۲۲.۱٪ در ردههای بعدی قرار گرفتند.
چرا عملکرد این مدلها چندان چشمگیر نیست؟ برخی از مدلها در استفاده از ابزارهای عیبیابی موجود و درک نحوه کمک این ابزارها به حل مشکلات مختلف با دشواری مواجه شدند. اما مشکل بزرگتر، کمبود دادهها است. نویسندگان معتقدند که در دادههای آموزشی کنونی، نمایندههای کافی از “فرآیندهای تصمیمگیری متوالی” — یعنی ردپای عیبیابی انسانی — وجود ندارد. آنها بر این باورند که آموزش یا تنظیم دقیق این مدلها میتواند آنها را به عیبیابهای تعاملی بهتری تبدیل کند، اما این نیازمند دادههای تخصصی است، به عنوان مثال، دادههای حرکتی که تعاملات عاملها با دیباگر را برای جمعآوری اطلاعات لازم قبل از پیشنهاد یک راهحل عیبیابی ثبت میکند.
یافتههای این مطالعه به جزئیات بیشتری در مورد یک مشکل پایدار در مدلها اشاره دارد. این نتایج احتمالاً شور و شوق سرمایهگذاران در زمینه ابزارهای کدنویسی پشتیبانی شده توسط هوش مصنوعی را تحت تأثیر قرار نخواهد داد، اما امیدواریم که باعث شود توسعهدهندگان و مدیران آنها دوباره در مورد واگذاری کنترل فرآیند کدنویسی به هوش مصنوعی تجدید نظر کنند. در عین حال، تعداد فزایندهای از رهبران فناوری بر این باورند که هوش مصنوعی مشاغل برنامهنویسی را خودکار نخواهد کرد. بیل گیتس، یکی از بنیانگذاران مایکروسافت، اظهار داشته است که فکر میکند حرفه برنامهنویسی در آینده نیز وجود خواهد داشت، و همین نظر را مدیران شرکتهای نامآشنایی همچون Replit و Okta نیز ابراز کردهاند.