تحقیقاتی از دانشگاه ایلینوی اوربانا-شمپین به نام “s3” را معرفی کردهاند، یک فریمورک متنباز که به منظور ساخت سیستمهای تولید پاسخ با استفاده از بازیابی (RAG) طراحی شده است. این فریمورک به توسعهدهندگان کمک میکند تا نرمافزارهای بزرگ زبان مدل (LLM) واقعی را با هزینه کمتر و به روشی سادهتر ایجاد کنند.
کیفیت هر سیستم RAG به مؤلفه بازیابی آن بستگی دارد. محققان در مقاله خود، مراحل تکامل روشهای RAG را به سه فاز متمایز تقسیمبندی کردهاند. باوجود پیشرفتهای بوجود آمده، روشهای موجود مانند RL-Zero هنوز هم بر اساس معیارهای جستجو بهینهسازی میشوند که به کارایی پایین دست نهایی توجهی ندارند و معمولاً نیاز به تنظیمات مجدد پیچیده و پرهزینه LLM دارند. با ترکیب بازیابی و تولید، این روشها به توان عملیاتی واقعی و سازگاری با مدلهای ثابت یا اختصاصی آسیب میزنند.
فریمورک s3 با رویکرد مدل-ناشناس خود به این چالش پاسخ میدهد. ایده اصلی این است که یک عامل جستجو با دسترسی چندمرحلهای به دانش خارجی آموزش داده شود. این عامل جستجو به بهبود کیفیت مرحله بازیابی کمک میکند، بدون اینکه بر LLM که پاسخ نهایی را تولید میکند تأثیر بگذارد.
در s3، یک LLM جستجوگر بهطور مکرر با یک موتور جستجو تعامل میکند، سؤالاتی بر اساس ورودی تولید میکند، اسناد مرتبط را بازیابی، زیرمجموعهای از شواهد را انتخاب و تصمیم میگیرد که آیا جستجو را ادامه دهد یا خیر. پس از اتمام جستجو، یک تولیدکننده LLM جداگانه و ثابت، شواهد جمعآوریشده را برای تولید پاسخ نهایی مصرف میکند.
نوآوری اصلی s3، سیگنال پاداش به نام Gain Beyond RAG (GBR) است که بهبود دقت تولیدکننده را هنگام شرطی کردن بر روی اسناد بازیابیشده توسط s3، نسبت به یک baseline که اسناد اصلی متناسب با پرسش را بازیابی میکند، اندازهگیری میکند. این پاداش مشوقی برای جستجوگر است تا اسنادی را پیدا کند که واقعاً کیفیت خروجی تولیدکننده را افزایش دهد.
Patrick (Pengcheng) Jiang، نویسنده اصلی این مقاله و دانشجوی دکترا در UIUC، به VentureBeat گفت: «s3، جستجوگر را از تولیدکننده جدا میکند. این امکان را به شرکتها میدهد تا هر LLM آماده یا اختصاصی—خواه GPT-4، Claude یا مدل داخلی—را بدون نیاز به تنظیمات مجدد متصل کنند.»
محققان s3 را در شش معیار سنجش پرسش و پاسخ عمومی آزمایش کردند و آن را با سه دسته سیستم RAG مقایسه کردند: تنظیم مجدد کلی، بازیابی ثابت با تولیدکنندههای ثابت و بازیابی فعال با تولیدکنندههای ثابت. در این آزمایشها، از مدل پایه Qwen2.5-7B-Instruct به عنوان جستجوگر و مدلهای Qwen2.5-14B-Instruct و Claude 3 Haiku به عنوان تولیدکنندههای ثابت LLM استفاده کردند.
s3 در بیشتر معیارها از قبیل بازیابی ثابت، بدون نمونه و تنظیم مجدد پایانبه-پایان برتری داشت و عملکرد بالایی را به نمایش گذاشت. کارایی دادههای آن قابل توجه است: s3 با تنها 2400 نمونه آموزشی توانست به موفقیتهای چشمگیری دست یابد که بهطور قابل توجهی کمتر از 70000 نمونه مورد نیاز توسط DeepRetrieval و 170000 نمونه مورد نیاز توسط Search-R1 است، در حالی که در کیفیت زمینه و عملکرد پاسخ نهایی از هر دو سیستم برتر بود.
این یافتهها نشاندهنده یک تغییر بنیادی در استراتژی بهینهسازی است. محققان در مقاله خود تأکید میکنند که بیشتر سود عملکرد در RAG ناشی از بهبود قابلیت جستجو به جای مطابقت نتایج تولید است.
s3 همچنین توانایی سازگاری با دامنههایی که آموزش دیده در آنها وجود ندارد، نشان داده است. با این بهبود، s3 برای کاربردهای تخصصی در شرکتها که معمولاً با پایگاه دادههای اختصاصی یا سفارشی مواجه هستند، بسیار مناسب است.
Jiang گفت: «ما پتانسیل فوری را در حوزههای بهداشت و درمان، مدیریت دانش در سازمانها و حمایت از تحقیقات علمی مشاهده میکنیم، جایی که کیفیت بالای بازیابی بسیار حائز اهمیت است و دادههای برچسبگذاریشده اغلب نادر است.»