خبر جدید: ابزار Yourbench، نوآوری تازهای از Hugging Face برای ارزیابی مدلهای هوش مصنوعی بر اساس دادههای سازمانی
Hugging Face، یکی از پیشتازان عرصه هوش مصنوعی، اخیراً ابزار جدیدی به نام Yourbench معرفی کرده است. این ابزار متنباز به سازمانها و توسعهدهندگان اجازه میدهد تا معیارهای سفارشی خود را برای ارزیابی عملکرد مدلهای هوش مصنوعی بر اساس دادههای داخلیشان ایجاد کنند. این نوآوری میتواند نوع نگاه به ارزیابی مدلهای هوش مصنوعی را متحول کند و به کاربران کمک کند به طور دقیقتر میزان تطابق این مدلها با نیازهای خاصشان را بسنجند.
Yourbench: گامی بزرگ برای ارزیابی شخصیسازیشده مدلهای هوش مصنوعی
سموک شاشیدار، یکی از اعضای تیم تحقیقاتی ارزیابی Hugging Face، در شبکه اجتماعی X (توییتر سابق) اعلام کرد که Yourbench امکان “ایجاد معیارهای سفارشی و تولید دادههای مصنوعی از هرگونه اسناد” را ارائه میدهد. او این ابزار را بهعنوان یک گام مهم برای بهبود روند ارزیابی مدلهای هوش مصنوعی معرفی کرد.
وی افزود: “در بسیاری از موارد، چیزی که واقعاً اهمیت دارد این است که مدل در انجام وظایف خاص شما چقدر خوب عمل میکند. Yourbench به شما این امکان را میدهد که مدلها را بر اساس مواردی که برای شما اهمیت دارد، ارزیابی کنید.”
چگونه Yourbench کار میکند؟
براساس مقالهای منتشر شده توسط Hugging Face، ابزار Yourbench زیر مجموعههایی از معیار Massive Multitask Language Understanding (MMLU) را به وسیله استفاده حداقلی از متنهای منبع شبیهسازی میکند. این فرآیند در کل کمتر از ۱۵ دلار هزینه پردازش دارد و در عین حال رتبهبندی نسبی عملکرد مدلها را کاملاً حفظ میکند.
برای استفاده از Yourbench، سازمانها ابتدا باید اسناد خود را پیشپردازش کنند که شامل سه مرحله است:
1. آمادهسازی اسناد.
2. تولید پرسش و پاسخ از اطلاعات موجود در اسناد.
3. ارزیابی مدل منتخب LLM با استفاده از پرسشهای تولید شده.
Hugging Face این ابزار را با مجموعهای از مدلهای مختلف آزمایش کرده است، از جمله مدلهای DeepSeek V3، مدلهای Qwen از Alibaba، مدلهای Mistral، Llama و Gemini، GPT-4o و Claude 3.7. نتایج نشان میدهند که برخی مدلها مانند Qwen و Gemini 2.0 Flash در مقایسه با هزینه پردازش، عملکرد بسیار باارزشی دارند.
چالشها و نیاز به ظرفیت پردازشی بیشتر
یکی از چالشهای استفاده از Yourbench نیاز بالای این ابزار به توان پردازشی است. سموک شاشیدار در X اعلام کرد که Hugging Face بهسرعت در حال افزایش ظرفیت پردازشی خود است. این شرکت از چندین GPU و خدمات ابری شرکتهایی مانند گوگل استفاده میکند تا وظایف پردازشی را انجام دهد.
آیا ارزیابی مدلهای هوش مصنوعی همیشه دقیق است؟
هرچند معیارهای سنجش مانند MMLU اطلاعات مفیدی درباره عملکرد مدلها ارائه میدهند، اما برخی کارشناسان نسبت به محدودیتهای این معیارها ابراز نگرانی کردهاند. تحقیقات نشان دادهاند که ارزیابیهای مبتنی بر معیارهای عمومی ممکن است گمراهکننده بوده و جنبههایی مانند امنیت یا عملکرد واقعی مدلها در شرایط روزمره را بهطور کامل نشان ندهند.
با این حال، با توجه به افزایش تعداد مدلهای هوش مصنوعی در بازار، شرکتها نمیتوانند از ارزیابی مدلها چشمپوشی کنند. ابزارهایی مانند Yourbench و روشهایی نظیر FACTS Grounding از گوگل دیپمایند، یا معیارهای توسعهیافته توسط محققان دانشگاههای Yale و Tsinghua، به سازمانها گامهای جدیدی برای ارزیابی دقیقتر مدلها ارائه میدهند.
نتیجهگیری
Yourbench به عنوان یکی از جدیدترین نوآوریهای Hugging Face، پتانسیل ایجاد تحول در ارزیابی مدلهای هوش مصنوعی را دارد. این ابزار علاوه بر ارائه معیارهای سفارشی، امکان تولید دادههای مصنوعی و بررسی عملکرد مدلها در انجام وظایف خاص را آسانتر کرده است. با وجود چالشهای مرتبط با نیاز پردازشی بالا، چنین ابزارهایی در مسیر پیشرفت فناوری هوش مصنوعی نقش مهمی ایفا میکنند و به سازمانها کمک میکنند تا تصمیمات بهتری در انتخاب و استفاده از مدلهای هوش مصنوعی بگیرند.
برای مطالعه بیشتر درباره این ابزار و آپدیتهای جدید، پلتفرم Hugging Face و شبکه اجتماعی X را دنبال کنید.