انتشار نسخه به‌روزرسانی شده RewardBench 2 برای ارزیابی عملکرد مدل‌های هوش مصنوعی

موسسه آلن برای هوش مصنوعی (Ai2) به تازگی نسخه جدیدی از معیار ارزیابی مدل‌های پاداش به نام RewardBench 2 را روانه بازار کرده است. این نسخه به منظور فراهم آوردن دیدگاه جامع‌تری از عملکرد مدل‌ها در سناریوهای واقعی طراحی شده است. در حالی که ارزیابی مدل‌ها می‌تواند به‌ویژه در سناریوهای خاص پیچیده باشد، RewardBench 2 با انجام ارزیابی‌های بهبود یافته و اعمال استانداردهای جدید، توانسته است مشکلات موجود در نسخه‌های قبلی را حل کند.

ناتان لمبرت، دانشمند ارشد تحقیقاتی در Ai2، در گفتگو با رسانه VentureBeat اشاره کرد که نسخه قبلی این معیار به خوبی عمل می‌کرد ولی با توجه به پیشرفت سریع محیط مدل‌ها، نیاز به تغییر و به‌روزرسانی داشت. او افزود: “ما در نسخه دوم تصمیم گرفتیم تا به عمق و وسعت ارزیابی‌ها بپردازیم و از درخواست‌های انسانی متنوع و چالش‌برانگیز استفاده کنیم.” این معیار جدید با توجه به ابعاد مختلفی از جمله صحت، پیروی دقیق از دستورات، ایمنی و تمرکز، به ارزیابی مدل‌ها می‌پردازد.

یکی از نقاط قوت RewardBench 2 این است که به شرکت‌ها کمک می‌کند تا اطمینان حاصل کنند که مدل‌های پاداش با ارزش‌ها و استانداردهای آن‌ها همخوانی دارد. در غیر این صورت، فرآیندهای یادگیری و بهبود ممکن است منجر به تقویت رفتارهای نامناسب شود. لمبرت همچنین تاکید کرد که استفاده از RewardBench 2 می‌تواند به شرکت‌ها در انتخاب بهترین مدل‌ها بر اساس نیازهای خاص خود کمک کند.

نسخه اول RewardBench در مارس 2024 منتشر شد و از آن زمان، روش‌های متعددی برای بهبود و ارزیابی مدل‌های پاداش در جامعه تحقیقاتی معرفی شده است. با بررسی نتایج مدل‌های مختلف از جمله نسخه‌های Gemini، Claude و Llama-3.1، مشخص شد که مدل‌های بزرگ‌تر در این معیار عملکرد بهتری دارند و نسخه‌های Llama-3.1 Instruct به عنوان بهترین عملکردها شناخته شده‌اند.

در نهایت، موسسه Ai2 با خوشبینی نسبت به پیشرفت‌های حاصل شده در RewardBench 2، کاربران را به استفاده از این معیار به عنوان ابزاری راهنما برای انتخاب بهترین مدل‌ها بر اساس نیازهای خاص خود تشویق می‌کند. این رویداد نشان‌دهنده گام مهمی در جهت بهبود و دقت ارزیابی مدل‌های هوش مصنوعی در پروژه‌های تجاری و صنعتی است.

دستیار صوتی هوشمند پیشرفته

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا