تحقیقات جدیدی که توسط پژوهشگران گوگل انجام شده، مفهوم “زمینه کافی” را به عنوان یک رویکرد نوین برای درک و بهبود سیستم‌های تولید متنی افزون بر بازیابی (RAG) در مدل‌های زبانی بزرگ (LLM) معرفی می‌کند. این رویکرد امکان تعیین این که آیا یک LLM اطلاعات کافی برای پاسخ‌گویی به یک پرسش دارد یا خیر را فراهم می‌کند، که این موضوع برای توسعه‌دهندگان در ساخت برنامه‌های کاربردی دنیای واقعی، که در آن دقت و صحت اطلاعات از اهمیت بالایی برخوردار است، حیاتی است. RAG به عنوان یکی از ارکان اصلی طراحی برنامه‌های هوش مصنوعی که قابلیت اثبات و صحت بیشتری دارند، در نظر گرفته شده‌اند.

با این حال، سیستم‌های RAG ممکن است ویژگی‌های نامطلوبی را از خود نشان دهند. این سیستم‌ها می‌توانند با اعتماد به نفس پاسخ‌های نادرستی ارائه دهند، حتی در زمانی که شاهدی برای پاسخ موجود است، یا با اطلاعات نامربوط در متن دچار حواس‌پرتی شوند و یا نتوانند به درستی پاسخ‌هایی را از جملات طولانی استخراج کنند. پژوهشگران در مقاله خود بیان کرده‌اند: “نتیجه ایده‌آل این است که اگر زمینه ارائه شده شامل اطلاعات کافی برای پاسخ به پرسش باشد، LLM باید پاسخ صحیحی را تولید کند. در غیر این صورت، مدل باید از پاسخ‌گویی خودداری کند و/یا درخواست اطلاعات بیشتری کند.”

برای دستیابی به این شرایط ایده‌آل، نیاز به ساخت مدل‌هایی است که بتوانند تعیین کنند آیا زمینه ارائه شده می‌تواند به درستی به پرسش پاسخ دهد یا خیر و همچنین از آن به طور انتخابی استفاده کنند. تلاش‌های قبلی در این زمینه بر روی اینکه چگونه LLM‌ها با درجات مختلف اطلاعات عمل می‌کنند، متمرکز بوده است. اما مقاله گوگل ادعای می‌کند که “در حالی که هدف به نظر می‌رسد درک رفتار LLM‌ها زمانی که اطلاعات کافی برای پاسخ‌گویی به پرسش را دارند یا ندارند، باشد، کارهای قبلی به این مسئله به‌طور مستقیم نپرداخته‌اند.”

برای رسیدگی به این موضوع، پژوهشگران مفهوم “زمینه کافی” را معرفی کردند. به طور کلی، ورودی‌ها بر اساس این که آیا زمینه ارائه شده دارای اطلاعات کافی برای پاسخ به پرسش است یا خیر، طبقه‌بندی می‌شوند. این دسته‌بندی شامل دو حالت است:
1. زمینه کافی: زمینه شامل تمام اطلاعات لازم برای ارائه یک پاسخ قطعی است.
2. زمینه ناکافی: زمینه فاقد اطلاعات لازم است، ممکن است به دلیل نیاز به دانش تخصصی یا وجود اطلاعات ناقص، نامعلوم یا متضاد باشد.

این مشخصه با بررسی پرسش و زمینه مربوطه تعیین می‌شود بدون آن که به پاسخ واقعی نیاز باشد، که این موضوع برای کاربردهای دنیای واقعی که در آن پاسخ‌های واقعی به راحتی در دسترس نیستند، حیاتی است.

در ادامه، پژوهشگران یک مدل “خودکارسنجی” مبتنی بر LLM برای خودکارسازی برچسب‌گذاری ورودی‌ها به عنوان دارای زمینه کافی یا ناکافی توسعه دادند. آنها دریافتند که مدل “Gemini 1.5 Pro” گوگل با یک مثال (۱-شات) بهترین عملکرد را در طبقه‌بندی کافی بودن زمینه داشت، و امتیاز F1 و دقت بالایی را به دست آورد.

این مطالعه بر روی مدل‌ها و دیتاست‌های مختلف از منظر زمینه کافی روشنگری‌های مهمی را ارائه داده است. به طور کلی، مدل‌ها زمانی که زمینه کافی در اختیار دارند، دقت بالاتری کسب می‌کنند. با این حال، حتی با داشتن زمینه کافی، مدل‌ها تمایل دارند که بیشتر از آنکه خودداری کنند، دچار خطا شوند.

نکته جالب توجه این است که مدل‌ها گاهی اوقات می‌توانند پاسخ‌های صحیحی ارائه دهند حتی زمانی که زمینه فراهم شده ناکافی ارزیابی می‌شود. پژوهشگران به این نتیجه رسیدند که کیفیت LLM پایه بسیار حیاتی است و برای یک سیستم RAG خوب، مدل باید بر اساس بنچمارک‌هایی با و بدون بازیابی ارزیابی شود.

در پایان، پژوهشگران با معرفی یک چارچوب “تولید انتخابی” سعی کردند راهکارهایی برای کاهش خطاها ارائه دهند. استفاده از زمینه کافی به عنوان یک سیگنال اضافی در این چارچوب منجر به افزایش دقت پاسخ‌های مدل‌ها به میزان ۲ تا ۱۰ درصد شد. این یافته‌ها می‌تواند در بهبود سیستم‌های اطلاعاتی و هوش مصنوعی کاربردهای بسیار زیادی داشته باشد.

تبدیل نوشتار به گفتار

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا