OpenAI بنچمارک جدیدی بهنام GDPval منتشر کرد؛ مدلهای GPT-5 و Claude Opus 4.1 بهسرعت به کیفیت کاری متخصصان نزدیک میشوند
OpenAI روز پنجشنبه بنچمارکی به نام GDPval را معرفی کرد که هدف آن سنجش توانایی مدلهای هوش مصنوعی در انجام کارهایی است که از نظر اقتصادی ارزشمند محسوب میشوند. این آزمون یک تلاش اولیه برای بررسی فاصله سیستمهای OpenAI تا نقطهای است که بتوانند در برخی وظایفِ شغلی با متخصصان انسانی رقابت یا از آنها پیشی بگیرند — موضوعی کلیدی در مأموریت این شرکت برای پیشرفت به سمت هوش مصنوعی عمومی (AGI).
خلاصه نتایج و روش آزمون
– GDPval روی 9 صنعت بزرگِ مؤثر در تولید ناخالص داخلی آمریکا تمرکز دارد، از جمله حوزههایی مانند سلامت، مالی، تولید و بخش دولتی.
– این بنچمارک عملکرد مدلها را در 44 شغل مختلف درون این صنایع میسنجد؛ شغلهایی از جمله مهندسان نرمافزار، پرستاران و خبرنگاران.
– در نسخه اول آزمون (GDPval‑v0)، به متخصصان باتجربه گزارشهای تولیدشده توسط انسان و گزارشهای تولیدشده توسط مدلها نشان داده شد و از آنها خواسته شد گزارش بهتر را انتخاب کنند. نتیجه نهایی بر اساس میانگین «نرخ برد» مدل در مقایسه با گزارشهای انسانی محاسبه شد.
عملکرد مدلها: پیشرفت قابل توجه اما محدود
OpenAI اعلام کرده است که نسخه تقویتشدهای از GPT-5 (با نام GPT‑5‑high) در مجموع در حدود 40.6٪ موارد بهتر یا همتراز با گزارشهای تولیدشده توسط متخصصان شغلی ارزیابی شده است. در همین آزمایش، مدل Claude Opus 4.1 شرکت Anthropic در حدود 49٪ از موارد بهتر یا همتراز با متخصصان ظاهر شد. OpenAI اشاره کرده که عملکرد بالاتر Claude تا حدودی به تمایل این مدل به تولید گرافیکهای جذاب مرتبط بوده است، نه لزوماً صرفاً از منظر دقت محتوا.
محدودیتهای فعلی بنچمارک
OpenAI بهصراحت اذعان میکند که GDPval‑v0 تنها بخشی کوچک از کارهایی را که افراد در شغلهای واقعی انجام میدهند اندازهگیری میکند — عمدتاً تولید گزارش و تحلیلهای نوشتاری. بسیاری از مشاغل شامل تعاملات پیچیده، تصمیمگیریهای لحظهای، کار تیمی و وظایف فیزیکی یا میدانی هستند که در این نسخه پوشش داده نشدهاند. بنابراین دستاوردهای فعلی به معنی جایگزینی فوری نیروی انسانی نیست، بلکه نشاندهنده تخصص روزافزون مدلها در بخشی از کارهای تخصصی است.
پیامدها برای نیروی کار و کاربردهای تجاری
کارشناسان OpenAI معتقدند که وقتی مدلها در بخشی از وظایف عملکردی نزدیک یا برابر با متخصصان نشان دهند، کارکنان میتوانند بخشی از کارهای تکراری یا پژوهشی خود را به مدلها واگذار کنند و زمان بیشتری برای فعالیتهای ارزشافزاتر اختصاص دهند. دکتر Aaron Chatterji، اقتصاددان ارشد OpenAI، در مصاحبهای اشاره کرده است که این پیشرفت میتواند موجب تمرکز نیروی انسانی بر کارهای خلاقانهتر و تصمیممحورتر شود.
نیاز به بنچمارکهای واقعیتر و کاملتر
تحقیقات اخیر نشان میدهد که بسیاری از بنچمارکهای مرسوم (مانند AIME 2025 برای مسائل ریاضی رقابتی یا GPQA Diamond برای پرسشهای سطح دکتری علوم) به سمت اشباع شدن حرکت کردهاند و اکنون نیاز به معیارهایی وجود دارد که توانایی مدلها را در وظایف دنیای واقعی اندازهگیری کنند. GDPval میتواند یکی از گامهای مهم در این مسیر باشد، اما برای ادعای قطعی درباره توانایی جایگزینی انسانها، نسخهای کاملتر و پوششدهندهتر لازم است که جریانهای کاری تعاملی و مهارتهای چندجانبه را نیز ارزیابی کند.
پیشرفت سریع: آیا روند ادامه دارد؟
نمایندگان OpenAI از سرعت رشد نتایج خوشبین هستند؛ بهعنوان مثال مدل GPT‑4o که حدود 15 ماه پیش معرفی شد، در این معیار تنها حدود 13.7٪ امتیاز «برد یا تساوی» کسب کرده بود، در حالی که GPT‑5 اکنون تقریباً سه برابر آن امتیاز را کسب کرده است. این نشان میدهد که پیشرفتها در کوتاهمدت قابلتوجه است، هرچند مسیر تا تحقق کامل مزایای گسترده تجاری و اجتماعی همچنان چالشبرانگیز خواهد بود.
جمعبندی
معرفی GDPval توسط OpenAI یک گام مهم در جهت سنجش کاربردیبودن هوش مصنوعی در حوزههای اقتصادی است و نتایج اولیه نشان میدهد که مدلهایی مانند GPT‑5 و Claude Opus 4.1 به کیفیتی نزدیک به کارهای تخصصی انسانی در برخی وظایف رسیدهاند. با این حال، محدودیتهای فعلی آزمون و تنوع گسترده وظایف شغلی مانع از نتیجهگیری درباره جایگزینی کامل نیروی کار در کوتاهمدت میشود. برای ارزیابی دقیقتر، بنچمارکهای جامعتر و شبیهتر به جریانهای کاری واقعی ضروری است؛ بنچمارکهایی که تعاملات، تصمیمگیریها و جنبههای غیرمتنی کارها را نیز پوشش دهند.
