سایت بینا ویرا به تازگی از افزودن قابلیت جدیدی به نام Align Evals به پلتفرم LangSmith خبر داده است. این قابلیت با هدف کاهش تفاوتها بین ارزیابیهای مدلهای هوش مصنوعی و ارزیابیهای انسانی طراحی شده و به کاربران اجازه میدهد ارزیابهای مبتنی بر مدلهای زبان بزرگ (LLM) را بسازند و آنها را بهگونهای تنظیم کنند که بیشتر با نیازهای سازمانی همخوانی داشته باشند.
امروزه با افزایش استفاده از مدلهای هوش مصنوعی در سازمانها، نیاز به ارزیابی دقیق عملکرد این مدلها بیش از پیش احساس میشود. LangChain در یک پست وبلاگی بیان کرده است: «یکی از چالشهای بزرگی که مکرراً از تیمها میشنویم این است که نمرات ارزیابی ما با آنچه که انتظار میرود همخوانی ندارد، به طوری که این ناهماهنگی منجر به مقایسههای نادرست و اتلاف زمان میشود.»
Align Evals به کاربران LangSmith این امکان را میدهد که معیارهای ارزیابی خود را شناسایی کنند و دادههای مورد نیاز برای ارزیابیهای انسانی را انتخاب نمایند. این فرآیند به طور خاص شامل مشخصکردن جنبههای مثبت و منفی یک برنامه است که به ارزیابهای انسانی کمک میکند تا دید جامعتری از عملکرد اپلیکیشن داشته باشند.
همچنین، LangChain قصد دارد بهزودی قابلیتهای تحلیلی را به این پلتفرم اضافه کند تا عملکرد ارزیابها را رصد و بهینهسازی کند. در این راستا، کاربران میتوانند با توجه به نتایج ارزیابی انسانها به ایجاد و ویرایش معیارهای ارزیابی بپردازند.
علاوه بر این، LangChain در راستای ارائه بهترین شیوهها برای بهبود فرآیندهای ارزیابی، مشاورههای جامعی را ارائه خواهد داد. با توجه به وجود نیاز فزاینده به فریمورکهای ارزیابی در زمینههای مختلف، این ابتکار میتواند به سازمانها کمک کند تا ارزیابیهای دقیقتری از مدلهای هوش مصنوعی خود داشته باشند.
نکته قابل توجه این است که پلتفرمهای مختلفی مانند Salesforce و AWS نیز در حال ارائه شیوههایی برای ارزیابی عملکرد مدلها هستند، اما با افزودن قابلیت Align Evals، LangSmith یکی از پیشگامان این زمینه به شمار میآید.
این تحول میتواند به بسیاری از توسعهدهندگان کمک کند تا با چالشهای ارزیابی عملکرد هوش مصنوعی بهطور مؤثری مواجه شوند و راهکارهای بهتری برای استفاده از مدلهای هوش مصنوعی ارائه دهند.
