استانداردهای متا برای مدل‌های جدید هوش مصنوعی ممکن است گمراه‌کننده باشد

مدل هوش مصنوعی جدید “ماوریک” از شرکت متا، رتبه دوم آزمایش LM Arena را کسب کرد

شرکت متا اخیراً از مدل پیشرفته هوش مصنوعی خود با نام “ماوریک” رونمایی کرده است. این مدل در تست LM Arena، که توسط ارزیاب‌های انسانی انجام می‌شود و خروجی مدل‌ها را با یکدیگر مقایسه و مورد ترجیح قرار می‌دهند، موفق شده رتبه دوم را کسب کند. با این حال، به نظر می‌رسد نسخه‌ای از “ماوریک” که در LM Arena مورد استفاده قرار گرفته با نسخه‌ای که به طور گسترده برای توسعه‌دهندگان ارائه شده، تفاوت‌هایی دارد.

بر اساس گزارشی که توسط پژوهشگران هوش مصنوعی در پلتفرم X (توییتر سابق) منتشر شده، شرکت متا در اعلامیه رسمی خود تأیید کرده است که نسخه‌ی “ماوریک” در LM Arena یک نسخه “آزمایشی و بهینه‌شده برای چت” است. همچنین در وب‌سایت رسمی Llama، متا اعلام کرده که تست‌های LM Arena با نسخه‌ی بهینه‌شده‌ی “Llama 4 Maverick” برای مکالمات انجام شده است.

تفاوت نسخه‌ها؛ چالش‌ها و ارائه اطلاعات ناقص

یکی از نکات مهم این است که LM Arena از ابتدا به طور کامل و دقیق معیاری قابل اعتماد برای سنجش عملکرد مدل‌های هوش مصنوعی نبوده است. با این‌حال، به ندرت پیش آمده که شرکت‌های توسعه‌دهنده مدل‌های خود را به طور خاص برای بهتر ظاهر شدن در این نوع آزمایش‌ها تنظیم و سفارشی‌سازی کنند. یا حداقل به صورت عمومی چنین اقدامی را اعلام نکرده‌اند.

مشکل اصلی وقتی آغاز می‌شود که یک مدل برای یک معیار خاص بهینه‌سازی شده، سپس نسخه‌ای متفاوت و بدون سفارشی‌سازی در اختیار کاربران قرار گیرد. این موضوع نه تنها برای توسعه‌دهندگان، پیش‌بینی عملکرد مدل در شرایط مختلف را دشوار می‌کند، بلکه ممکن است منجر به ایجاد ابهام و برداشت‌های اشتباه شود. هدف اصلی معیارهایی مانند LM Arena باید ارائه تصویری دقیق از نقاط قوت و ضعف یک مدل در مجموعه‌ای از وظایف متنوع باشد.

رفتار غیر معمول مدل “ماوریک” در LM Arena

پژوهشگران هوش مصنوعی در شبکه‌های اجتماعی، تفاوت‌های قابل‌توجهی میان رفتار نسخه‌ی عمومی “ماوریک” در مقایسه با نسخه‌ی آزمایشی آن در LM Arena مشاهده کرده‌اند. به عنوان مثال، مدل “ماوریک” در LM Arena تمایل به استفاده گسترده از ایموجی‌ها در پاسخ‌های خود دارد و پاسخ‌های بسیار طولانی و پیچیده‌ای ارائه می‌دهد. این رفتارها برای کاربران و توسعه‌دهندگان ممکن است غیرمنتظره یا حتی ناخوشایند باشد:

پژوهشگری در توییتی نوشته است: “مدل Llama 4 در LM Arena به شدت غیرعادی به نظر می‌رسد؛ انگار در حال استفاده از ایموجی‌های زیاد و پاسخ‌های طولانی است.”

در توییت دیگری اشاره شده است که نسخه عمومی این مدل در دیگر پلتفرم‌ها عملکردی بهتر و متعادل‌تر دارد.

نگاه آینده؛ شفافیت در ارائه مدل‌ها

متا هنوز به طور رسمی به این موضوع واکنش نشان نداده و پاسخی به این پرسش‌ها ارائه نکرده است. همچنین، سازمان Chatbot Arena که مسئول مدیریت تست‌های LM Arena است، اعلام نظری در این خصوص نکرده است. انتظار می‌رود شفافیت بیشتری در ارائه مشخصات مدل‌ها و تفاوت نسخه‌های آزمایشی و عمومی شاهد باشیم تا توسعه‌دهندگان بتوانند با اطمینان بیشتری از این ابزارها استفاده کنند.

اخبار مرتبط با این موضوع در آینده نزدیک در سایت بینا ویرا منتشر خواهد شد؛ همراه ما باشید تا اطلاعات تکمیلی در این زمینه را دریافت کنید.

تبدیل گفتار به نوشتار

استانداردهای متا برای مدل‌های جدید هوش مصنوعی ممکن است گمراه‌کننده باشد

دیدگاه‌ خود را بنویسید لغو پاسخ