عنوان: معرفی MCP‑Universe؛ معیار متنباز جدید Salesforce برای ارزیابی عملکرد LLMها در تعامل با سرورهای Model Context Protocol (MCP)
SalesforceAI Research از انتشار یک معیار متنباز به نام MCP‑Universe خبر داد که برای ردیابی و ارزیابی عملکرد مدلهای زبان بزرگ (LLM) هنگام تعامل با سرورهای واقعی مبتنی بر Model Context Protocol (MCP) طراحی شده است. هدف این معیار، ارائه تصویری واقعیتر از رفتار مدلها در سناریوهای زمانواقعی و ابزارمحور است—مسألهای که بسیاری از بنچمارکهای موجود نتوانستهاند پوشش دهند.
چرا MCP‑Universe اهمیت دارد؟
– فاصله بین بنچمارکهای مصنوعی و عملکرد واقعی: بنچمارکهای سنتی عمدتاً جنبههای مجزایی مانند دنبالکردن دستورالعمل، استدلال ریاضی یا فراخوانی توابع را میسنجند، اما تعاملات پیچیده، چندگانه و مبتنی بر دادههای واقعیِ سرورهای MCP را بازنمایی نمیکنند.
– تمرکز بر ابزارها و محیطهای واقعی: MCP‑Universe از سرورهای MCP موجود با دسترسی به منابع داده و محیطهای واقعی استفاده میکند تا توانایی مدلها در استفاده از ابزارها، فراخوانی چندمرحلهای ابزارها، کار با پنجرههای متنی طولانی و مدیریت فضای بزرگ ابزارها را بسنجد.
طراحی و حوزههای ارزیابی
MCP‑Universe شش حوزه اصلیِ کاربردی سازمانی را پوشش میدهد: ناوبری مکانی، مدیریت مخازن (repository management)، تحلیل مالی، طراحی سهبعدی، اتوماسیون مرورگر و جستجوی وب. برای این منظور، تیم تحقیق به 11 سرور MCP دسترسی یافت و مجموعهای از 231 وظیفه واقعینما طراحی کرد. برای هر حوزه، چهار تا پنج نوع وظیفه ساخته شد که مشابه امور روزمره سازمانهاست (مثلاً برنامهریزی مسیر با تعیین توقفهای بهینه و یافتن مقصد نهایی).
رویکرد ارزیابی: اجرای واقعی به جای «LLM‑بهعنوانداور»
برخلاف رویکرد رایج «LLM‑بهعنوانداور» که از یک مدل برای قضاوت نتایج استفاده میکند، محققان Salesforce از یک پارادایم ارزیابی مبتنی بر اجرا بهره بردند. دلیل انتخاب این روش این است که قضاوت مبتنی بر یک LLM ثابت برای وظایف نیازمند دادههای زمانواقعی مناسب نیست. سه نوع ارزیاب به کار گرفته شد:
– ارزیاب فرمت: بررسی تطابق خروجی با الزامات قالبی
– ارزیاب ایستا: سنجش درستی نتایج ثابت در طول زمان
– ارزیاب پویا: ارزیابی پاسخهای نوسانی مانند قیمت پرواز یا وضعیت مسائل روی GitHub
تفاوت با معیارهای مشابه
MCP‑Universe مکمل معیارهای مبتنی بر MCP دیگر است—از جمله MCP‑Radar و MCPWorld—و بر مبنای MCPEvals (معیاری که Salesforce در جولای عرضه کرده و عمدتاً روی عاملها متمرکز بود) توسعه یافته است. تفاوت کلیدی با MCPEvals این است که MCP‑Universe وظایف واقعیتر و مبتنی بر دادههای زمانواقعی را اجرا و ارزیابی میکند، نه تنها وظایف مصنوعی.
آزمایشها و نتایج کلیدی
تستها روی چندین مدل تجاری و متنباز انجام شد؛ از جمله GPT‑5 و دیگر نسخههای GPT از OpenAI، Grok‑4 از xAI، Claude‑4 Sonnet و Claude‑3.7، Google Gemini 2.5، GLM‑4.5 و نمونههای برجسته دیگر—که همگی حداقل 120 میلیارد پارامتر داشتند. یافتههای اصلی عبارتند از:
– بالاترین نرخ موفقیت کلی متعلق به GPT‑5 بود، بهویژه در وظایف تحلیل مالی.
– Grok‑4 در حوزه اتوماسیون مرورگر بهترین عملکرد را داشت.
– Claude‑4 Sonnet در رده سوم قرار گرفت.
– در میان مدلهای متنباز، GLM‑4.5 بهترین نتیجه را بهدست آورد.
– با وجود نتایج نسبتاً قوی برخی مدلها، همه آنها در سناریوهای واقعی با مشکلات جدی مواجه شدند: افت شدید کارایی در مواجهه با زمینههای متنی بسیار طولانی، کاهش توانایی در استفاده از ابزارهای ناشناخته و دشواری در انجام فراخوانیهای چندمرحلهای ابزارها. بهطور کلی، مدلها بیش از نیمی از وظایف معمول سازمانی را بهدرستی انجام ندادند.
تحلیل و پیامدها برای سازمانها
Junnan Li، مدیر تحقیقات AI در Salesforce، تأکید کرد که دو چالش اصلی مانع اجرای قابلاعتماد وظایف سازمانی هستند:
– چالش زمینههای طولانی: مدلها در حفظ اطلاعات و استدلال سازگار با متون بلند و ورودیهای پیچیده دچار ضعف میشوند.
– چالش ابزارهای ناآشنا: مدلها در استفاده بیدرنگ و تطبیق با ابزارها یا سیستمهای جدید، به اندازه انسانی انعطافپذیر نیستند.
پیامدهای عملی:
– سازمانها نباید تنها روی یک مدل واحد برای راهبری عاملها (agents) سرمایهگذاری کنند؛ پلتفرمی که ترکیبکننده زمینه داده، استدلال تقویتشده و سازوکارهای اعتماد (trust guardrails) باشد ضروری است.
– استفاده از معیارهایی مانند MCP‑Universe میتواند ضعفهای پیادهسازی و نقاط شکست در تعامل مدلها با ابزارهای واقعی را آشکار کند و به بهبود فریمورکها و رابطهای ابزارها کمک کند.
– نیاز به بهبود راهکارهای مدیریت متنهای بلند، ارتقاء «آداپتورها» یا لایههای میانی برای هماهنگی با ابزارهای متنوع و تقویت توانایی مدلها در فراخوانی چندمرحلهای ابزارها واضح است.
جمعبندی
MCP‑Universe یک مجموعه آزمون چالشی و واقعمحور برای ارزیابی عملکرد مدلهای زبان در تعامل با سرورهای MCP است که خلأ بین آزمایشهای سنتی و نیازهای واقعی سازمانها را هدف قرار میدهد. نتایج اولیه نشان میدهد که حتی پیشرفتهترین LLMها در محیطهای ابزارمحور و زمانواقعی خطاها و محدودیتهایی دارند؛ بنابراین بررسی دقیقتر و استفاده از چارچوبهای ترکیبی برای استقرار امن و مؤثر هوش مصنوعی در سازمانها ضروری است.
