تحقیقات جدیدی که توسط پژوهشگران گوگل انجام شده، مفهوم “زمینه کافی” را به عنوان یک رویکرد نوین برای درک و بهبود سیستمهای تولید متنی افزون بر بازیابی (RAG) در مدلهای زبانی بزرگ (LLM) معرفی میکند. این رویکرد امکان تعیین این که آیا یک LLM اطلاعات کافی برای پاسخگویی به یک پرسش دارد یا خیر را فراهم میکند، که این موضوع برای توسعهدهندگان در ساخت برنامههای کاربردی دنیای واقعی، که در آن دقت و صحت اطلاعات از اهمیت بالایی برخوردار است، حیاتی است. RAG به عنوان یکی از ارکان اصلی طراحی برنامههای هوش مصنوعی که قابلیت اثبات و صحت بیشتری دارند، در نظر گرفته شدهاند.
با این حال، سیستمهای RAG ممکن است ویژگیهای نامطلوبی را از خود نشان دهند. این سیستمها میتوانند با اعتماد به نفس پاسخهای نادرستی ارائه دهند، حتی در زمانی که شاهدی برای پاسخ موجود است، یا با اطلاعات نامربوط در متن دچار حواسپرتی شوند و یا نتوانند به درستی پاسخهایی را از جملات طولانی استخراج کنند. پژوهشگران در مقاله خود بیان کردهاند: “نتیجه ایدهآل این است که اگر زمینه ارائه شده شامل اطلاعات کافی برای پاسخ به پرسش باشد، LLM باید پاسخ صحیحی را تولید کند. در غیر این صورت، مدل باید از پاسخگویی خودداری کند و/یا درخواست اطلاعات بیشتری کند.”
برای دستیابی به این شرایط ایدهآل، نیاز به ساخت مدلهایی است که بتوانند تعیین کنند آیا زمینه ارائه شده میتواند به درستی به پرسش پاسخ دهد یا خیر و همچنین از آن به طور انتخابی استفاده کنند. تلاشهای قبلی در این زمینه بر روی اینکه چگونه LLMها با درجات مختلف اطلاعات عمل میکنند، متمرکز بوده است. اما مقاله گوگل ادعای میکند که “در حالی که هدف به نظر میرسد درک رفتار LLMها زمانی که اطلاعات کافی برای پاسخگویی به پرسش را دارند یا ندارند، باشد، کارهای قبلی به این مسئله بهطور مستقیم نپرداختهاند.”
برای رسیدگی به این موضوع، پژوهشگران مفهوم “زمینه کافی” را معرفی کردند. به طور کلی، ورودیها بر اساس این که آیا زمینه ارائه شده دارای اطلاعات کافی برای پاسخ به پرسش است یا خیر، طبقهبندی میشوند. این دستهبندی شامل دو حالت است:
1. زمینه کافی: زمینه شامل تمام اطلاعات لازم برای ارائه یک پاسخ قطعی است.
2. زمینه ناکافی: زمینه فاقد اطلاعات لازم است، ممکن است به دلیل نیاز به دانش تخصصی یا وجود اطلاعات ناقص، نامعلوم یا متضاد باشد.
این مشخصه با بررسی پرسش و زمینه مربوطه تعیین میشود بدون آن که به پاسخ واقعی نیاز باشد، که این موضوع برای کاربردهای دنیای واقعی که در آن پاسخهای واقعی به راحتی در دسترس نیستند، حیاتی است.
در ادامه، پژوهشگران یک مدل “خودکارسنجی” مبتنی بر LLM برای خودکارسازی برچسبگذاری ورودیها به عنوان دارای زمینه کافی یا ناکافی توسعه دادند. آنها دریافتند که مدل “Gemini 1.5 Pro” گوگل با یک مثال (۱-شات) بهترین عملکرد را در طبقهبندی کافی بودن زمینه داشت، و امتیاز F1 و دقت بالایی را به دست آورد.
این مطالعه بر روی مدلها و دیتاستهای مختلف از منظر زمینه کافی روشنگریهای مهمی را ارائه داده است. به طور کلی، مدلها زمانی که زمینه کافی در اختیار دارند، دقت بالاتری کسب میکنند. با این حال، حتی با داشتن زمینه کافی، مدلها تمایل دارند که بیشتر از آنکه خودداری کنند، دچار خطا شوند.
نکته جالب توجه این است که مدلها گاهی اوقات میتوانند پاسخهای صحیحی ارائه دهند حتی زمانی که زمینه فراهم شده ناکافی ارزیابی میشود. پژوهشگران به این نتیجه رسیدند که کیفیت LLM پایه بسیار حیاتی است و برای یک سیستم RAG خوب، مدل باید بر اساس بنچمارکهایی با و بدون بازیابی ارزیابی شود.
در پایان، پژوهشگران با معرفی یک چارچوب “تولید انتخابی” سعی کردند راهکارهایی برای کاهش خطاها ارائه دهند. استفاده از زمینه کافی به عنوان یک سیگنال اضافی در این چارچوب منجر به افزایش دقت پاسخهای مدلها به میزان ۲ تا ۱۰ درصد شد. این یافتهها میتواند در بهبود سیستمهای اطلاعاتی و هوش مصنوعی کاربردهای بسیار زیادی داشته باشد.