شرکت OpenAI امروز از دو مدل هوش مصنوعی پیشرو جدید به نامهای o3 و o4-mini رونمایی کرد که قابلیتهای استدلالی خود را با تصاویر ترکیب و ابزارها را بهطور مستقل استفاده میکنند. این مدلها که بخشی از سری جدید “o” هستند، به گفته کارشناسان، گام بلندی در پیشرفتهای هوش مصنوعی بهشمار میآیند. این سیستمها توانایی دارند تا بهطور مستقیم تصاویر را در فرآیند استدلال خود ادغام کرده و به جستجوی وب، اجرای کد، تحلیل فایلها و حتی تولید تصاویر در یک جریان کار واحد بپردازند.
گرگ بروکمن، رئیس OpenAI در کنفرانسی خبری به این نکته اشاره کرد که “مدلهایی وجود دارند که بهطور واقعی به آینده نگاهی کیفی دارند. امروز نیز یکی از آن روزهاست”. او تأکید کرد که این مدلها اولین نمونههایی هستند که بهگفته دانشمندان برتر، ایدههای نو و مفید را بهطور واقعی تولید میکنند.
یک ویژگی بارز این مدلها، توانایی آنها در “تفکر با تصاویر” است؛ برای مثال، در یک نمایش زنده، پژوهشگری نشان داد که o3 چگونه توانست یک پوستر فیزیک را از یک کارآموزی قدیمی تحلیل کند و بهطور مستقل به مفهومهای پیچیده آن دست یابد. او همچنین افزود که این مدلها به راحتی میتوانند اطلاعات زیادی را پردازش کنند که میتواند به عنوان انقلابی در زمینههای مختلف علمی، آموزشی و تکنولوژیکی محسوب شود.
OpenAI اعلام کرد که این مدلها سیستمهای تمامعیاری هستند که قادر به استفاده مستقل و زنجیرهای از ابزارها هنگام حل مسائل هستند. بروکمن خاطرنشان کرد: “ما آنها را از طریق یادگیری تقویتی آموزش دادهایم که نه تنها نحوه استفاده از ابزارها را یاد بگیرند، بلکه بتوانند درک کنند که چه زمانی باید از آنها استفاده کنند”.
این امکان به مدلها اجازه میدهد تا فرآیندهای پیچیده و چند مرحلهای را بدون هدایت مداوم انسان انجام دهند. به عنوان مثال، اگر از آنها درباره الگوهای مصرف انرژی آینده در کالیفرنیا سؤال شود، میتوانند اطلاعات مربوط به این دادهها را جستجو کنند، کد پایتون برای تحلیل آن بنویسند، تجزیهوتحلیلهای تصویری ایجاد کنند و گزارشی جامع ارائه دهند.
مدل o3 بهعنوان یک مدل برجسته معرفی شده که بر اساس ارزیابیهای انجامشده، ۲۰ درصد کمتر از مدل قبلی خود در انجام وظایف دشوار خطا دارد. همچنین، مدل کوچکتر o4-mini با هدف بهبود سرعت و کارایی هزینهها طراحی شده است.
زمانبندی معرفی این مدلها بسیار مهم است؛ زیرا تنها دو روز پس از رونمایی از مدل GPT-4.1 که در زمینه عملکردهای کدنویسی بسیار قوی است، منتشر شدهاند. این معرفی نشاندهنده شتاب در رقابتهای هوش مصنوعی است، بهویژه با فشار فزایندهای که OpenAI از سوی مدلهای Gemini گوگل، Claude شرکت Anthropic و xAI الون ماسک متحمل میشود.
OpenAI همچنین از یک ابزار جدید به نام Codex CLI رونمایی کرده است که یک عامل کدنویسی سبکوزن است و به توسعهدهندگان این امکان را میدهد تا از قابلیتهای استدلالی مدلها برای وظایف کدنویسی بهرهمند شوند. این ابزار که بهصورت منبعباز در دسترس است، پشتیبانی از تصاویر و طراحیهای کمکیفیت را ارائه میدهد.
این مدلها بهویژه در مهندسی نرمافزار درخشان ظاهر شدهاند و OpenAI اعلام کرد که این مدلها در مقایسه با مدلهای قبلی هم از نظر قابلیت و هم از نظر هزینه کارآمدتر هستند.
علاوه بر این، OpenAI در تلاش است تا با آزمایشات امنیتی گسترده بر روی این مدلها، اطمینان حاصل کند که توانایی آنها در رد درخواستهای مضر به بهترین نحو بهروز شده است. این شرکت اعلام کرده که هر دو مدل o3 و o4-mini در محدوده “پرتراکم” از خطرات زیستمحیطی، سایبری و بهبود خودکار AI قرار دارند.
این معرفی یک فرصت تجاری قابل توجه برای OpenAI به شمار میرود و تحلیلگران صنعتی بر این باورند که این مدلها بخشی از روند گستردهتر همگرایی در قابلیتهای هوش مصنوعی هستند که روزبهروز شاهد ترکیب بهتر استدلالهای تخصصی با تواناییهای گفتگو طبیعی و استفاده از ابزارها هستیم.
با رونمایی از o3 و o4-mini، OpenAI در آستانه تحولی قرار گرفته که به ماشینها این قابلیت را میدهد تا مانند انسانها به پردازش تصاویر بپردازند و اطلاعات بصری را به عنوان جزئی از فرآیند تفکر خود تجزیه و تحلیل کنند. این تغییر از شناسایی غیرفعال به استدلال بصری فعال بهطور بالقوه میتواند یکی از مهمترین پیشرفتها در دنیای هوش مصنوعی باشد.