مدل هوش مصنوعی جدید “ماوریک” از شرکت متا، رتبه دوم آزمایش LM Arena را کسب کرد
شرکت متا اخیراً از مدل پیشرفته هوش مصنوعی خود با نام “ماوریک” رونمایی کرده است. این مدل در تست LM Arena، که توسط ارزیابهای انسانی انجام میشود و خروجی مدلها را با یکدیگر مقایسه و مورد ترجیح قرار میدهند، موفق شده رتبه دوم را کسب کند. با این حال، به نظر میرسد نسخهای از “ماوریک” که در LM Arena مورد استفاده قرار گرفته با نسخهای که به طور گسترده برای توسعهدهندگان ارائه شده، تفاوتهایی دارد.
بر اساس گزارشی که توسط پژوهشگران هوش مصنوعی در پلتفرم X (توییتر سابق) منتشر شده، شرکت متا در اعلامیه رسمی خود تأیید کرده است که نسخهی “ماوریک” در LM Arena یک نسخه “آزمایشی و بهینهشده برای چت” است. همچنین در وبسایت رسمی Llama، متا اعلام کرده که تستهای LM Arena با نسخهی بهینهشدهی “Llama 4 Maverick” برای مکالمات انجام شده است.
تفاوت نسخهها؛ چالشها و ارائه اطلاعات ناقص
یکی از نکات مهم این است که LM Arena از ابتدا به طور کامل و دقیق معیاری قابل اعتماد برای سنجش عملکرد مدلهای هوش مصنوعی نبوده است. با اینحال، به ندرت پیش آمده که شرکتهای توسعهدهنده مدلهای خود را به طور خاص برای بهتر ظاهر شدن در این نوع آزمایشها تنظیم و سفارشیسازی کنند. یا حداقل به صورت عمومی چنین اقدامی را اعلام نکردهاند.
مشکل اصلی وقتی آغاز میشود که یک مدل برای یک معیار خاص بهینهسازی شده، سپس نسخهای متفاوت و بدون سفارشیسازی در اختیار کاربران قرار گیرد. این موضوع نه تنها برای توسعهدهندگان، پیشبینی عملکرد مدل در شرایط مختلف را دشوار میکند، بلکه ممکن است منجر به ایجاد ابهام و برداشتهای اشتباه شود. هدف اصلی معیارهایی مانند LM Arena باید ارائه تصویری دقیق از نقاط قوت و ضعف یک مدل در مجموعهای از وظایف متنوع باشد.
رفتار غیر معمول مدل “ماوریک” در LM Arena
پژوهشگران هوش مصنوعی در شبکههای اجتماعی، تفاوتهای قابلتوجهی میان رفتار نسخهی عمومی “ماوریک” در مقایسه با نسخهی آزمایشی آن در LM Arena مشاهده کردهاند. به عنوان مثال، مدل “ماوریک” در LM Arena تمایل به استفاده گسترده از ایموجیها در پاسخهای خود دارد و پاسخهای بسیار طولانی و پیچیدهای ارائه میدهد. این رفتارها برای کاربران و توسعهدهندگان ممکن است غیرمنتظره یا حتی ناخوشایند باشد:
پژوهشگری در توییتی نوشته است: “مدل Llama 4 در LM Arena به شدت غیرعادی به نظر میرسد؛ انگار در حال استفاده از ایموجیهای زیاد و پاسخهای طولانی است.”
در توییت دیگری اشاره شده است که نسخه عمومی این مدل در دیگر پلتفرمها عملکردی بهتر و متعادلتر دارد.
نگاه آینده؛ شفافیت در ارائه مدلها
متا هنوز به طور رسمی به این موضوع واکنش نشان نداده و پاسخی به این پرسشها ارائه نکرده است. همچنین، سازمان Chatbot Arena که مسئول مدیریت تستهای LM Arena است، اعلام نظری در این خصوص نکرده است. انتظار میرود شفافیت بیشتری در ارائه مشخصات مدلها و تفاوت نسخههای آزمایشی و عمومی شاهد باشیم تا توسعهدهندگان بتوانند با اطمینان بیشتری از این ابزارها استفاده کنند.
اخبار مرتبط با این موضوع در آینده نزدیک در سایت بینا ویرا منتشر خواهد شد؛ همراه ما باشید تا اطلاعات تکمیلی در این زمینه را دریافت کنید.