OpenAI روز دوشنبه از خانواده جدیدی از مدل‌ها به نام GPT-4.1 رونمایی کرد. این مدل شامل نسخه‌های مختلفی از جمله GPT-4.1، GPT-4.1 Mini و GPT-4.1 Nano است. طبق ادعای شرکت، این مدل‌ها در زمینه کدنویسی و پیروی از دستورالعمل‌ها برتری دارند. این مدل‌ها از طریق API OpenAI در دسترس هستند، اما در ChatGPT قابل استفاده نیستند. مدل‌های چندرسانه‌ای یادشده دارای پنجره زمینه یک میلیون توکنی هستند، به این معنا که می‌توانند به طور تقریبی ۷۵۰,۰۰۰ کلمه را به طور همزمان پردازش کنند که این مقدار از رمان “جنگ و صلح” بیشتر است.

مدل GPT-4.1 در شرایطی معرفی می‌شود که رقبای OpenAI مانند گوگل و Anthropic تلاش‌های خود را برای ساخت مدل‌های پیچیده‌تر برنامه‌نویسی افزایش داده‌اند. به‌عنوان مثال، مدل Gemini 2.5 Pro گوگل که به تازگی منتشر شده، نیز دارای پنجره زمینه یک میلیون توکنی است و در معیارهای کدنویسی معتبر، امتیاز بالایی کسب کرده است.

هدف بسیاری از غول‌های فناوری، از جمله OpenAI، تربیت مدل‌های هوش مصنوعی برای انجام وظایف پیچیده مهندسی نرم‌افزار است. OpenAI به دنبال ایجاد یک “مهندس نرم‌افزار عامل‌دار” است. این شرکت ادعا می‌کند که مدل‌های آینده قادر به کدنویسی کامل برنامه‌ها و مدیریت جنبه‌های مختلف مانند تضمین کیفیت، آزمایش خطا و نوشتن مستندات خواهند بود. GPT-4.1 گام مهمی در این راستا محسوب می‌شود.

به گفته سخنگوی OpenAI، این مدل با هدف بهینه‌سازی برای استفاده در دنیای واقعی و بر اساس بازخوردهای مستقیم توسعه‌دهندگان طراحی شده است. اصلاحات صورت گرفته به توسعه‌دهندگان امکان می‌دهد تا مدل‌هایی بسازند که در انجام وظایف مهندسی نرم‌افزار واقعی بسیار بهتر عمل کنند.

ادعا می‌شود که مدل کامل GPT-4.1 در معیارهای کدنویسی از مدل‌های قبلی ، شامل GPT-4 و GPT-4 Mini، بهتر عمل کرده و نسخه‌های Mini و Nano به طرز قابل توجهی سریع‌تر و کارآمدتر هستند، هرچند ممکن است نسبت به دقت مدل‌های بزرگتر دقت کمتری داشته باشند. قیمت‌گذاری برای GPT-4.1 به ازای هر میلیون توکن ورودی ۲ دلار و هر میلیون توکن خروجی ۸ دلار تعیین شده است. ورژن Mini و Nano به ترتیب ۰.۴۰ و ۰.۱ دلار در هر میلیون توکن ورودی هزینه دارند.

بر اساس آزمایش‌های داخلی OpenAI، مدل GPT-4.1 می‌تواند تعداد بیشتری از توکن‌ها را نسبت به مدل GPT-4 پردازش کند. در معیار SWE-bench Verified، این مدل امتیازی بین ۵۲ تا ۵۴.۶ درصد کسب کرده است، که نسبت به امتیازهای گوگل و Anthropic (به ترتیب ۶۳.۸ و ۶۲.۳ درصد) کمی پایین‌تر است.

در ارزیابی دیگری، OpenAI عملکرد GPT-4.1 را با استفاده از Video-MME، که برای سنجش توانایی مدل در درک محتوا در ویدئوها طراحی شده است، مورد بررسی قرار داد. به ادعای OpenAI، مدل GPT-4.1 در دسته ویدئوهای “طولانی، بدون زیرنویس” با دقت ۷۲ درصد، موفق به کسب بالاترین امتیاز شده است.

هرچند مدل GPT-4.1 در معیارهای مختلف عملکرد خوبی از خود نشان می‌دهد و با اطلاعات به‌روزتری تا ژوئن ۲۰۲۴ عمل می‌کند، مهم است که بدانیم حتی برخی از بهترین مدل‌ها نیز در انجام وظایفی که ممکن است کارشناسان را به چالش نکشند با مشکلاتی مواجه هستند. به‌ویژه، مطالعات متعدد نشان داده‌اند که مدل‌های تولید کد غالباً قادر به شناسایی و اصلاح آسیب‌پذیری‌های امنیتی و خطاها نیستند. OpenAI همچنین اذعان کرده است که دقت GPT-4.1 با افزایش تعداد توکن‌های ورودی کاهش می‌یابد، به‌طوری‌که در یکی از آزمون‌های خود، دقت مدل از حدود ۸۴ درصد با ۸,۰۰۰ توکن به ۵۰ درصد با یک میلیون توکن کاهش یافته است. این مدل همچنین گرایش بیشتری به دقت در ارائه اطلاعات دارد و ممکن است لازم باشد درخواست‌های بیشتری به‌صورت خاص و شفاف مطرح شوند.

تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا