پژوهشگران دانشگاه ایلینوی در اربانا-شمپین و دانشگاه ماساچوست امهرست، تکنیکی به نام SEARCH-R1 را معرفی کردهاند که توانایی مدلهای زبانی بزرگ (LLM) را در ارتباط با جستجوگرها و استفاده از دادههای بهروزتر بهبود میبخشد. در حالی که مدلهای زبانی در زمینه تواناییهای استدلالی پیشرفت چشمگیری داشتهاند، هنوز در استفاده از دادههای خارجی که در فاز آموزش در اختیارشان نبودهاند، عملکرد ضعیفی دارند. این موضوع به ویژه در سناریوهایی که نیاز به دادههای جدید و دقیق از موتورهای جستجو دارند، مشکلساز میشود.
SEARCH-R1 مدلهای زبانی را برای ایجاد جستجوهای هوشمندانه و یکپارچهسازی نتایج جستجو با روند استدلالی آموزش میدهد. این تکنیک میتواند برای سازمانها در حال جستجو برای یکپارچهسازی مدلهای جدید به کار گرفته شود و قابلیتهای جدیدی را در استدلال فراهم کند که به دادههای خارجی وابسته هستند. روشهای موجود مانند “تولید مبتنی بر بازیابی” (RAG) و استفاده از ابزارها از طریق مهندسی پرامپت یا تنظیم دقیق مدلها در برخی موارد برای مدلهای استدلالی کافی نیستند.
SEARCH-R1 این امکان را فراهم میآورد که مدلهای زبانی همزمان با فرایندهای استدلالی به موتورهای جستجو وصل شوند، به جای اینکه ابتدا دادهها را بازیابی کرده و سپس استدلال کنند. این تکنیک به مدلها اجازه میدهد که توکنهای مربوط به فکر، جستجو، اطلاعات و پاسخ را به صورت جداگانه تولید کنند. در جریان استدلال، اگر مدل تشخیص دهد که به اطلاعات خارجی نیاز دارد، یک درخواست جستجو تولید میکند و نتایج حاصل را در پنجره بافتاری خود وارد میکند.
این روش بر پایه یادگیری تقویتی خالص (RL) طراحی شده است، جایی که مدل به کاوش ابزارهای جستجو و استدلال بدون هدایت از دادههای انسانی میپردازد. از این رو، نیاز به ایجاد مجموعههای بزرگ دادههای آموزشی حاشیهنویسیشده حذف میشود. پژوهشگران با تست SEARCH-R1 بر روی نسخههای مختلف Qwen-2.5 و Llama-3.2 و ارزیابی آنها با استفاده از معیارهای مختلف، نشان دادهاند که این روش عملکرد بهتری نسبت به روشهای پایه دارد.
کدهای SEARCH-R1 در GitHub منتشر شده است و میتواند در کاربردهای تجاری مانند پشتیبانی مشتریان، مدیریت دانش و تحلیل دادهها کاربرد داشته باشد. این توانایی استفاده از اطلاعات واقعی و به روز شده در زمان حقیقی میتواند دقت و قابلیت اطمینان سیستمهای مبتنی بر مدلهای زبانی بزرگ را بهبود بخشد.