OpenAI از مدل هوش مصنوعی جدید خود با نام O3-pro رونمایی کرده است که این شرکت آن را قدرتمندترین مدل خود تا به امروز میداند. O3-pro نسخهای از O3 است، مدلی مبتنی بر استدلال که شرکت OpenAI ابتدای امسال آن را معرفی کرد. برخلاف مدلهای متداول هوش مصنوعی، مدلهای مبتنی بر استدلال به حل مسائل بهصورت مرحلهبهمرحله میپردازند که این امر به آنها اجازه میدهد در حوزههایی مانند فیزیک، ریاضیات و برنامهنویسی عملکرد قابلاعتمادتری داشته باشند.
این مدل از روز سهشنبه برای کاربران ChatGPT Pro و Team در دسترس است و جایگزین مدل O1-pro شده است. کاربران سازمانی و آموزشی نیز هفته آینده به این مدل دسترسی خواهند داشت. O3-pro همچنین از ظهر امروز در API توسعهدهندگان OpenAI قابلاستفاده است. قیمتگذاری O3-pro به صورت ۲۰ دلار برای هر میلیون توکن ورودی و ۸۰ دلار برای هر میلیون توکن خروجی در API تعیین شده است. توکنهای ورودی به مدل داده میشوند و توکنهای خروجی بر اساس این ورودیها تولید میشوند. بهطور تقریبی، یک میلیون توکن ورودی معادل با ۷۵۰,۰۰۰ کلمه است که طول آن کمی بیشتر از رمان “جنگ و صلح” است.
گزارشها نشان میدهد که در ارزیابیهای کارشناسان، بازبینان بهطور مداوم O3-pro را نسبت به O3 در هر دسته آزمایش شده ترجیح دادهاند، بهویژه در زمینههای کلیدی مانند علوم، آموزش، برنامهنویسی، کسبوکار و کمک به نوشتن. همچنین این مدل در زمینه وضوح، جامعیت، دنبال کردن دستورالعملها و دقت نیز امتیاز بالاتری را دریافت کرده است.
OpenAI اعلام کرده است که O3-pro به ابزارهایی دسترسی دارد که به آن اجازه میدهد وب را جستجو کند، فایلها را تحلیل کند، در مورد ورودیهای بصری استدلال کند، از Python استفاده کند و پاسخهای خود را با استفاده از حافظه شخصیسازی نماید. با این حال، یکی از معایب این مدل این است که پاسخهای آن معمولاً نسبت به O1-pro زمان بیشتری طول میکشد. همچنین O3-pro محدودیتهایی دارد، از جمله عدم امکان ایجاد تصویر و اینکه ویژگی Canvas، که به صورت هوشمند طراحی شده، در این مدل پشتیبانی نمیشود.
از سوی دیگر، O3-pro در آزمونهای محبوب هوش مصنوعی نتایج قابلتوجهی کسب کرده است. بر اساس آزمایشهای داخلی OpenAI، این مدل در آزمون AIME 2024 که مهارتهای ریاضی مدلها را ارزیابی میکند، امتیاز بهتری نسبت به بهترین مدل هوش مصنوعی Google، یعنی Gemini 2.5 Pro بهدست آورده است. O3-pro همچنین بر روی آزمون GPQA Diamond، که معیاری برای دانش علمی در سطح دکترا است، موفقتر از Claude 4 Opus اتین شرکت Anthropic عمل کرده است.