OpenAI بنچمارک جدیدی به‌نام GDPval منتشر کرد؛ مدل‌های GPT-5 و Claude Opus 4.1 به‌سرعت به کیفیت کاری متخصصان نزدیک می‌شوند

OpenAI روز پنج‌شنبه بنچمارکی به نام GDPval را معرفی کرد که هدف آن سنجش توانایی مدل‌های هوش مصنوعی در انجام کارهایی است که از نظر اقتصادی ارزشمند محسوب می‌شوند. این آزمون یک تلاش اولیه برای بررسی فاصله سیستم‌های OpenAI تا نقطه‌ای است که بتوانند در برخی وظایفِ شغلی با متخصصان انسانی رقابت یا از آن‌ها پیشی بگیرند — موضوعی کلیدی در مأموریت این شرکت برای پیشرفت به سمت هوش مصنوعی عمومی (AGI).

خلاصه نتایج و روش آزمون
– GDPval روی 9 صنعت بزرگِ مؤثر در تولید ناخالص داخلی آمریکا تمرکز دارد، از جمله حوزه‌هایی مانند سلامت، مالی، تولید و بخش دولتی.
– این بنچمارک عملکرد مدل‌ها را در 44 شغل مختلف درون این صنایع می‌سنجد؛ شغل‌هایی از جمله مهندسان نرم‌افزار، پرستاران و خبرنگاران.
– در نسخه اول آزمون (GDPval‑v0)، به متخصصان باتجربه گزارش‌های تولیدشده توسط انسان و گزارش‌های تولیدشده توسط مدل‌ها نشان داده شد و از آن‌ها خواسته شد گزارش بهتر را انتخاب کنند. نتیجه نهایی بر اساس میانگین «نرخ برد» مدل در مقایسه با گزارش‌های انسانی محاسبه شد.

عملکرد مدل‌ها: پیشرفت قابل توجه اما محدود
OpenAI اعلام کرده است که نسخه تقویت‌شده‌ای از GPT-5 (با نام GPT‑5‑high) در مجموع در حدود 40.6٪ موارد بهتر یا هم‌تراز با گزارش‌های تولیدشده توسط متخصصان شغلی ارزیابی شده است. در همین آزمایش، مدل Claude Opus 4.1 شرکت Anthropic در حدود 49٪ از موارد بهتر یا هم‌تراز با متخصصان ظاهر شد. OpenAI اشاره کرده که عملکرد بالاتر Claude تا حدودی به تمایل این مدل به تولید گرافیک‌های جذاب مرتبط بوده است، نه لزوماً صرفاً از منظر دقت محتوا.

محدودیت‌های فعلی بنچمارک
OpenAI به‌صراحت اذعان می‌کند که GDPval‑v0 تنها بخشی کوچک از کارهایی را که افراد در شغل‌های واقعی انجام می‌دهند اندازه‌گیری می‌کند — عمدتاً تولید گزارش‌ و تحلیل‌های نوشتاری. بسیاری از مشاغل شامل تعاملات پیچیده، تصمیم‌گیری‌های لحظه‌ای، کار تیمی و وظایف فیزیکی یا میدانی هستند که در این نسخه پوشش داده نشده‌اند. بنابراین دستاوردهای فعلی به معنی جایگزینی فوری نیروی انسانی نیست، بلکه نشان‌دهنده تخصص روزافزون مدل‌ها در بخشی از کارهای تخصصی است.

پیامدها برای نیروی کار و کاربردهای تجاری
کارشناسان OpenAI معتقدند که وقتی مدل‌ها در بخشی از وظایف عملکردی نزدیک یا برابر با متخصصان نشان دهند، کارکنان می‌توانند بخشی از کارهای تکراری یا پژوهشی خود را به مدل‌ها واگذار کنند و زمان بیشتری برای فعالیت‌های ارزش‌افزاتر اختصاص دهند. دکتر Aaron Chatterji، اقتصاددان ارشد OpenAI، در مصاحبه‌ای اشاره کرده است که این پیشرفت می‌تواند موجب تمرکز نیروی انسانی بر کارهای خلاقانه‌تر و تصمیم‌محورتر شود.

نیاز به بنچمارک‌های واقعی‌تر و کامل‌تر
تحقیقات اخیر نشان می‌دهد که بسیاری از بنچمارک‌های مرسوم (مانند AIME 2025 برای مسائل ریاضی رقابتی یا GPQA Diamond برای پرسش‌های سطح دکتری علوم) به سمت اشباع شدن حرکت کرده‌اند و اکنون نیاز به معیارهایی وجود دارد که توانایی مدل‌ها را در وظایف دنیای واقعی اندازه‌گیری کنند. GDPval می‌تواند یکی از گام‌های مهم در این مسیر باشد، اما برای ادعای قطعی درباره توانایی جایگزینی انسان‌ها، نسخه‌ای کامل‌تر و پوشش‌دهنده‌تر لازم است که جریان‌های کاری تعاملی و مهارت‌های چندجانبه را نیز ارزیابی کند.

پیشرفت سریع: آیا روند ادامه دارد؟
نمایندگان OpenAI از سرعت رشد نتایج خوشبین هستند؛ به‌عنوان مثال مدل GPT‑4o که حدود 15 ماه پیش معرفی شد، در این معیار تنها حدود 13.7٪ امتیاز «برد یا تساوی» کسب کرده بود، در حالی که GPT‑5 اکنون تقریباً سه برابر آن امتیاز را کسب کرده است. این نشان می‌دهد که پیشرفت‌ها در کوتاه‌مدت قابل‌توجه است، هرچند مسیر تا تحقق کامل مزایای گسترده تجاری و اجتماعی همچنان چالش‌برانگیز خواهد بود.

جمع‌بندی
معرفی GDPval توسط OpenAI یک گام مهم در جهت سنجش کاربردی‌بودن هوش مصنوعی در حوزه‌های اقتصادی است و نتایج اولیه نشان می‌دهد که مدل‌هایی مانند GPT‑5 و Claude Opus 4.1 به کیفیتی نزدیک به کارهای تخصصی انسانی در برخی وظایف رسیده‌اند. با این حال، محدودیت‌های فعلی آزمون و تنوع گسترده وظایف شغلی مانع از نتیجه‌گیری درباره جایگزینی کامل نیروی کار در کوتاه‌مدت می‌شود. برای ارزیابی دقیق‌تر، بنچمارک‌های جامع‌تر و شبیه‌تر به جریان‌های کاری واقعی ضروری است؛ بنچمارک‌هایی که تعاملات، تصمیم‌گیری‌ها و جنبه‌های غیرمتنی کارها را نیز پوشش دهند.

چت بات پیشرفته

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا