اختلافاتی که میان نتایج ارزیابیهای اول شخص و ثالث برای مدل هوش مصنوعی o3 شرکت OpenAI وجود دارد، نگرانیهایی را درباره شفافیت شرکت و شیوههای آزمایش مدل ایجاد کرده است. در ماه دسامبر گذشته، OpenAI به معرفی o3 پرداخت و ادعا کرد که این مدل میتواند بیش از یک چهارم سوالات مجموعه چالشبرانگیز FrontierMath را پاسخ دهد. این عملکرد به طرز چشمگیری از رقبای خود پیشی گرفت، به طوری که بهترین مدل بعد از o3 موفق به پاسخگویی به تنها 2 درصد از سوالات FrontierMath شد.
مارک چن، مسئول تحقیق در OpenAI، در یک پخش زنده گفت: “امروزه تمامی مدلهای موجود کمتر از 2 درصد در FrontierMath عملکرد دارند”. در واقع، بررسیهای داخلی نشان داد که o3 در شرایط محاسباتی بسیار سخت قادر به پاسخگویی به بیش از 25 درصد سوالات است. اما شواهد نشان میدهد که این عدد به احتمال زیاد حداکثری بوده است که توسط نسخهای از o3 که زیرساخت محاسباتی قویتری داشته، به دست آمده، و نسخه عمومی معرفی شده هفته گذشته به واقع عملکردی کمتر از این را ارائه کرده است.
موسسه Epoch AI، که مسئول آزمایش مستقل FrontierMath است، نتایج ارزیابیهای خود از مدل o3 را روز جمعه منتشر کرد و بیان کرد که این مدل حدود 10 درصد از سوالات را پاسخ داده است، که به طرز قابل توجهی پایینتر از بالاترین ادعای OpenAI است. OpenAI همچنین مدل جدید o3 را همراه با o4-mini، مدلی کوچکتر و ارزانتر، معرفی کرده است.
پاسخ به انتقادات در این زمینه عموماً شفاف است. نتایج منتشر شده OpenAI مقدار حداقلی را نشان میدهد که با میزان مشاهده شده توسط Epoch مطابقت دارد. همچنین، Epoch بیان کرد که تنظیمات آزمایشی آنها ممکن است با OpenAI متفاوت باشد و از نسخه بهروزرسانی شده FrontierMath برای ارزیابیهای خود استفاده کردهاند.
بر اساس اظهارات برخی منابع، مدل عمومی o3 به گونهای طراحی شده که برای استفاده بهینهتر در مصارف چت و محصولی تنظیم شده است، که این ویژگیها ممکن است بر نتایج ارزیابیها تاثیر گذاشته باشد. فرایند ارزیابی مجدد o3 به زودی آغاز خواهد شد و به گفته کارشناسان، این مدلها بهگونهای بهینهسازی شدهاند تا با کارایی و سرعت بیشتری در کاربردهای واقعی عمل کنند.
این مسائل یادآور این است که معیارهای بنچمارک باید با احتیاط مورد بررسی قرار گیرند، به ویژه زمانی که منبع آنها شرکتی با خدمات تجاری باشد. در صنعت هوش مصنوعی، جنجالهای مربوط به ارزیابیها در حال افزایش است، در حالی که رقبا به شدت در تلاش برای جلب توجه و سهم بازار هستند.