بنچمارک MCP‑Universe: GPT‑5 در بیش از نیمی از وظایف ارکستراسیون واقعی شکست خورد

عنوان: معرفی MCP‑Universe؛ معیار متن‌باز جدید Salesforce برای ارزیابی عملکرد LLMها در تعامل با سرورهای Model Context Protocol (MCP)

SalesforceAI Research از انتشار یک معیار متن‌باز به نام MCP‑Universe خبر داد که برای ردیابی و ارزیابی عملکرد مدل‌های زبان بزرگ (LLM) هنگام تعامل با سرورهای واقعی مبتنی بر Model Context Protocol (MCP) طراحی شده است. هدف این معیار، ارائه تصویری واقعی‌تر از رفتار مدل‌ها در سناریوهای زمان‌واقعی و ابزارمحور است—مسأله‌ای که بسیاری از بنچمارک‌های موجود نتوانسته‌اند پوشش دهند.

چرا MCP‑Universe اهمیت دارد؟
– فاصله بین بنچمارک‌های مصنوعی و عملکرد واقعی: بنچمارک‌های سنتی عمدتاً جنبه‌های مجزایی مانند دنبال‌کردن دستورالعمل، استدلال ریاضی یا فراخوانی توابع را می‌سنجند، اما تعاملات پیچیده، چندگانه و مبتنی بر داده‌های واقعیِ سرورهای MCP را بازنمایی نمی‌کنند.
– تمرکز بر ابزارها و محیط‌های واقعی: MCP‑Universe از سرورهای MCP موجود با دسترسی به منابع داده و محیط‌های واقعی استفاده می‌کند تا توانایی مدل‌ها در استفاده از ابزارها، فراخوانی چندمرحله‌ای ابزارها، کار با پنجره‌های متنی طولانی و مدیریت فضای بزرگ ابزارها را بسنجد.

طراحی و حوزه‌های ارزیابی
MCP‑Universe شش حوزه اصلیِ کاربردی سازمانی را پوشش می‌دهد: ناوبری مکانی، مدیریت مخازن (repository management)، تحلیل مالی، طراحی سه‌بعدی، اتوماسیون مرورگر و جستجوی وب. برای این منظور، تیم تحقیق به 11 سرور MCP دسترسی یافت و مجموعه‌ای از 231 وظیفه واقعی‌نما طراحی کرد. برای هر حوزه، چهار تا پنج نوع وظیفه ساخته شد که مشابه امور روزمره سازمان‌هاست (مثلاً برنامه‌ریزی مسیر با تعیین توقف‌های بهینه و یافتن مقصد نهایی).

رویکرد ارزیابی: اجرای واقعی به جای «LLM‑به‌عنوان‌داور»
برخلاف رویکرد رایج «LLM‑به‌عنوان‌داور» که از یک مدل برای قضاوت نتایج استفاده می‌کند، محققان Salesforce از یک پارادایم ارزیابی مبتنی بر اجرا بهره بردند. دلیل انتخاب این روش این است که قضاوت مبتنی بر یک LLM ثابت برای وظایف نیازمند داده‌های زمان‌واقعی مناسب نیست. سه نوع ارزیاب به کار گرفته شد:
– ارزیاب فرمت: بررسی تطابق خروجی با الزامات قالبی
– ارزیاب ایستا: سنجش درستی نتایج ثابت در طول زمان
– ارزیاب پویا: ارزیابی پاسخ‌های نوسانی مانند قیمت پرواز یا وضعیت مسائل روی GitHub

تفاوت با معیارهای مشابه
MCP‑Universe مکمل معیارهای مبتنی بر MCP دیگر است—از جمله MCP‑Radar و MCPWorld—و بر مبنای MCPEvals (معیاری که Salesforce در جولای عرضه کرده و عمدتاً روی عامل‌ها متمرکز بود) توسعه یافته است. تفاوت کلیدی با MCPEvals این است که MCP‑Universe وظایف واقعی‌تر و مبتنی بر داده‌های زمان‌واقعی را اجرا و ارزیابی می‌کند، نه تنها وظایف مصنوعی.

آزمایش‌ها و نتایج کلیدی
تست‌ها روی چندین مدل تجاری و متن‌باز انجام شد؛ از جمله GPT‑5 و دیگر نسخه‌های GPT از OpenAI، Grok‑4 از xAI، Claude‑4 Sonnet و Claude‑3.7، Google Gemini 2.5، GLM‑4.5 و نمونه‌های برجسته دیگر—که همگی حداقل 120 میلیارد پارامتر داشتند. یافته‌های اصلی عبارتند از:
– بالاترین نرخ موفقیت کلی متعلق به GPT‑5 بود، به‌ویژه در وظایف تحلیل مالی.
– Grok‑4 در حوزه اتوماسیون مرورگر بهترین عملکرد را داشت.
– Claude‑4 Sonnet در رده سوم قرار گرفت.
– در میان مدل‌های متن‌باز، GLM‑4.5 بهترین نتیجه را به‌دست آورد.
– با وجود نتایج نسبتاً قوی برخی مدل‌ها، همه آنها در سناریوهای واقعی با مشکلات جدی مواجه شدند: افت شدید کارایی در مواجهه با زمینه‌های متنی بسیار طولانی، کاهش توانایی در استفاده از ابزارهای ناشناخته و دشواری در انجام فراخوانی‌های چندمرحله‌ای ابزارها. به‌طور کلی، مدل‌ها بیش از نیمی از وظایف معمول سازمانی را به‌درستی انجام ندادند.

تحلیل و پیامدها برای سازمان‌ها
Junnan Li، مدیر تحقیقات AI در Salesforce، تأکید کرد که دو چالش اصلی مانع اجرای قابل‌اعتماد وظایف سازمانی هستند:
– چالش زمینه‌های طولانی: مدل‌ها در حفظ اطلاعات و استدلال سازگار با متون بلند و ورودی‌های پیچیده دچار ضعف می‌شوند.
– چالش ابزارهای ناآشنا: مدل‌ها در استفاده بی‌درنگ و تطبیق با ابزارها یا سیستم‌های جدید، به اندازه انسانی انعطاف‌پذیر نیستند.

پیامدهای عملی:
– سازمان‌ها نباید تنها روی یک مدل واحد برای راهبری عامل‌ها (agents) سرمایه‌گذاری کنند؛ پلتفرمی که ترکیب‌کننده زمینه داده، استدلال تقویت‌شده و سازوکارهای اعتماد (trust guardrails) باشد ضروری است.
– استفاده از معیارهایی مانند MCP‑Universe می‌تواند ضعف‌های پیاده‌سازی و نقاط شکست در تعامل مدل‌ها با ابزارهای واقعی را آشکار کند و به بهبود فریم‌ورک‌ها و رابط‌های ابزارها کمک کند.
– نیاز به بهبود راهکارهای مدیریت متن‌های بلند، ارتقاء «آداپتورها» یا لایه‌های میانی برای هماهنگی با ابزارهای متنوع و تقویت توانایی مدل‌ها در فراخوانی چندمرحله‌ای ابزارها واضح است.

جمع‌بندی
MCP‑Universe یک مجموعه آزمون چالشی و واقع‌محور برای ارزیابی عملکرد مدل‌های زبان در تعامل با سرورهای MCP است که خلأ بین آزمایش‌های سنتی و نیازهای واقعی سازمان‌ها را هدف قرار می‌دهد. نتایج اولیه نشان می‌دهد که حتی پیشرفته‌ترین LLMها در محیط‌های ابزارمحور و زمان‌واقعی خطاها و محدودیت‌هایی دارند؛ بنابراین بررسی دقیق‌تر و استفاده از چارچوب‌های ترکیبی برای استقرار امن و مؤثر هوش مصنوعی در سازمان‌ها ضروری است.

ایجاد صوت دیجیتال پیشرفته

بنچمارک MCP‑Universe: GPT‑5 در بیش از نیمی از وظایف ارکستراسیون واقعی شکست خورد

دیدگاه‌ خود را بنویسید لغو پاسخ