OpenAI روز دوشنبه از خانواده جدیدی از مدلها به نام GPT-4.1 رونمایی کرد. این مدل شامل نسخههای مختلفی از جمله GPT-4.1، GPT-4.1 Mini و GPT-4.1 Nano است. طبق ادعای شرکت، این مدلها در زمینه کدنویسی و پیروی از دستورالعملها برتری دارند. این مدلها از طریق API OpenAI در دسترس هستند، اما در ChatGPT قابل استفاده نیستند. مدلهای چندرسانهای یادشده دارای پنجره زمینه یک میلیون توکنی هستند، به این معنا که میتوانند به طور تقریبی ۷۵۰,۰۰۰ کلمه را به طور همزمان پردازش کنند که این مقدار از رمان “جنگ و صلح” بیشتر است.
مدل GPT-4.1 در شرایطی معرفی میشود که رقبای OpenAI مانند گوگل و Anthropic تلاشهای خود را برای ساخت مدلهای پیچیدهتر برنامهنویسی افزایش دادهاند. بهعنوان مثال، مدل Gemini 2.5 Pro گوگل که به تازگی منتشر شده، نیز دارای پنجره زمینه یک میلیون توکنی است و در معیارهای کدنویسی معتبر، امتیاز بالایی کسب کرده است.
هدف بسیاری از غولهای فناوری، از جمله OpenAI، تربیت مدلهای هوش مصنوعی برای انجام وظایف پیچیده مهندسی نرمافزار است. OpenAI به دنبال ایجاد یک “مهندس نرمافزار عاملدار” است. این شرکت ادعا میکند که مدلهای آینده قادر به کدنویسی کامل برنامهها و مدیریت جنبههای مختلف مانند تضمین کیفیت، آزمایش خطا و نوشتن مستندات خواهند بود. GPT-4.1 گام مهمی در این راستا محسوب میشود.
به گفته سخنگوی OpenAI، این مدل با هدف بهینهسازی برای استفاده در دنیای واقعی و بر اساس بازخوردهای مستقیم توسعهدهندگان طراحی شده است. اصلاحات صورت گرفته به توسعهدهندگان امکان میدهد تا مدلهایی بسازند که در انجام وظایف مهندسی نرمافزار واقعی بسیار بهتر عمل کنند.
ادعا میشود که مدل کامل GPT-4.1 در معیارهای کدنویسی از مدلهای قبلی ، شامل GPT-4 و GPT-4 Mini، بهتر عمل کرده و نسخههای Mini و Nano به طرز قابل توجهی سریعتر و کارآمدتر هستند، هرچند ممکن است نسبت به دقت مدلهای بزرگتر دقت کمتری داشته باشند. قیمتگذاری برای GPT-4.1 به ازای هر میلیون توکن ورودی ۲ دلار و هر میلیون توکن خروجی ۸ دلار تعیین شده است. ورژن Mini و Nano به ترتیب ۰.۴۰ و ۰.۱ دلار در هر میلیون توکن ورودی هزینه دارند.
بر اساس آزمایشهای داخلی OpenAI، مدل GPT-4.1 میتواند تعداد بیشتری از توکنها را نسبت به مدل GPT-4 پردازش کند. در معیار SWE-bench Verified، این مدل امتیازی بین ۵۲ تا ۵۴.۶ درصد کسب کرده است، که نسبت به امتیازهای گوگل و Anthropic (به ترتیب ۶۳.۸ و ۶۲.۳ درصد) کمی پایینتر است.
در ارزیابی دیگری، OpenAI عملکرد GPT-4.1 را با استفاده از Video-MME، که برای سنجش توانایی مدل در درک محتوا در ویدئوها طراحی شده است، مورد بررسی قرار داد. به ادعای OpenAI، مدل GPT-4.1 در دسته ویدئوهای “طولانی، بدون زیرنویس” با دقت ۷۲ درصد، موفق به کسب بالاترین امتیاز شده است.
هرچند مدل GPT-4.1 در معیارهای مختلف عملکرد خوبی از خود نشان میدهد و با اطلاعات بهروزتری تا ژوئن ۲۰۲۴ عمل میکند، مهم است که بدانیم حتی برخی از بهترین مدلها نیز در انجام وظایفی که ممکن است کارشناسان را به چالش نکشند با مشکلاتی مواجه هستند. بهویژه، مطالعات متعدد نشان دادهاند که مدلهای تولید کد غالباً قادر به شناسایی و اصلاح آسیبپذیریهای امنیتی و خطاها نیستند. OpenAI همچنین اذعان کرده است که دقت GPT-4.1 با افزایش تعداد توکنهای ورودی کاهش مییابد، بهطوریکه در یکی از آزمونهای خود، دقت مدل از حدود ۸۴ درصد با ۸,۰۰۰ توکن به ۵۰ درصد با یک میلیون توکن کاهش یافته است. این مدل همچنین گرایش بیشتری به دقت در ارائه اطلاعات دارد و ممکن است لازم باشد درخواستهای بیشتری بهصورت خاص و شفاف مطرح شوند.