مدل هوش مصنوعی o3 OpenAI در معیارهای ارزیابی عملکرد کمتر از انتظارات اولیه ظاهر شد

اختلافاتی که میان نتایج ارزیابی‌های اول شخص و ثالث برای مدل هوش مصنوعی o3 شرکت OpenAI وجود دارد، نگرانی‌هایی را درباره شفافیت شرکت و شیوه‌های آزمایش مدل ایجاد کرده است. در ماه دسامبر گذشته، OpenAI به معرفی o3 پرداخت و ادعا کرد که این مدل می‌تواند بیش از یک چهارم سوالات مجموعه چالش‌برانگیز FrontierMath را پاسخ دهد. این عملکرد به طرز چشمگیری از رقبای خود پیشی گرفت، به طوری که بهترین مدل بعد از o3 موفق به پاسخ‌گویی به تنها 2 درصد از سوالات FrontierMath شد.

مارک چن، مسئول تحقیق در OpenAI، در یک پخش زنده گفت: “امروزه تمامی مدل‌های موجود کمتر از 2 درصد در FrontierMath عملکرد دارند”. در واقع، بررسی‌های داخلی نشان داد که o3 در شرایط محاسباتی بسیار سخت قادر به پاسخ‌گویی به بیش از 25 درصد سوالات است. اما شواهد نشان می‌دهد که این عدد به احتمال زیاد حداکثری بوده است که توسط نسخه‌ای از o3 که زیرساخت محاسباتی قوی‌تری داشته، به دست آمده، و نسخه عمومی معرفی شده هفته گذشته به واقع عملکردی کمتر از این را ارائه کرده است.

موسسه Epoch AI، که مسئول آزمایش مستقل FrontierMath است، نتایج ارزیابی‌های خود از مدل o3 را روز جمعه منتشر کرد و بیان کرد که این مدل حدود 10 درصد از سوالات را پاسخ داده است، که به طرز قابل توجهی پایین‌تر از بالاترین ادعای OpenAI است. OpenAI همچنین مدل جدید o3 را همراه با o4-mini، مدلی کوچک‌تر و ارزان‌تر، معرفی کرده است.

پاسخ به انتقادات در این زمینه عموماً شفاف است. نتایج منتشر شده OpenAI مقدار حداقلی را نشان می‌دهد که با میزان مشاهده شده توسط Epoch مطابقت دارد. همچنین، Epoch بیان کرد که تنظیمات آزمایشی آن‌ها ممکن است با OpenAI متفاوت باشد و از نسخه به‌روزرسانی شده FrontierMath برای ارزیابی‌های خود استفاده کرده‌اند.

بر اساس اظهارات برخی منابع، مدل عمومی o3 به گونه‌ای طراحی شده که برای استفاده بهینه‌تر در مصارف چت و محصولی تنظیم شده است، که این ویژگی‌ها ممکن است بر نتایج ارزیابی‌ها تاثیر گذاشته باشد. فرایند ارزیابی مجدد o3 به زودی آغاز خواهد شد و به گفته کارشناسان، این مدل‌ها به‌گونه‌ای بهینه‌سازی شده‌اند تا با کارایی و سرعت بیشتری در کاربردهای واقعی عمل کنند.

این مسائل یادآور این است که معیارهای بنچمارک باید با احتیاط مورد بررسی قرار گیرند، به ویژه زمانی که منبع آنها شرکتی با خدمات تجاری باشد. در صنعت هوش مصنوعی، جنجال‌های مربوط به ارزیابی‌ها در حال افزایش است، در حالی که رقبا به شدت در تلاش برای جلب توجه و سهم بازار هستند.

تبدیل نوشتار به گفتار

مدل هوش مصنوعی o3 OpenAI در معیارهای ارزیابی عملکرد کمتر از انتظارات اولیه ظاهر شد

دیدگاه‌ خود را بنویسید لغو پاسخ