چارچوب جستجوی درختی با دقت ۹۸٫۷٪ روی اسنادی که جستجوی برداری ناکام بود

عنوان: PageIndex — فریم‌ورک متن‌باز که بازیابی اسناد بسیار طولانی را با «جستجوی درختی» متحول می‌کند

چکیده: PageIndex یک فریم‌ورک متن‌باز است که رویکرد سنتی RAG (Retrieval‑Augmented Generation) را کنار گذاشته و به‌جای «بخش‌بندی و امبدینگ» به مسئله بازیابی به چشم «ناوبریِ ساختار سند» نگاه می‌کند. این روش برای کارهای حساسِ سازمانی مانند تحلیل گزارش‌های مالی، بررسی قراردادهای حقوقی و مرور پروتکل‌های دارویی که به دقت و ردیابی مسیر استناد نیاز دارند، راه‌حل عملی و قابل اتکایی ارائه می‌دهد.

مشکل پایه‌ای در RAG سنتی
– در روش رایج RAG اسناد به بخش‌های کوچک تقسیم و برای هر بخش امبدینگ محاسبه و در یک بانک برداری (vector database) ذخیره می‌شود. بازیابی بر پایه شباهت معنایی انجام می‌گیرد.
– این رویکرد برای سوال‌های ساده یا اسناد کوتاه مناسب است، اما در اسناد بلند و ساختاریافته (مانند گزارش‌های سالانه یا مستندات فنی) با «شکاف نیت در برابر محتوا» مواجه می‌شود: متن‌هایی با واژگان یکسان ممکن است از نظر منطقی و مرجع‌داری کاملاً متفاوت باشند.
– همچنین محدودیت طول ورودی در مدل‌های امبدینگ باعث می‌شود زمینهٔ کاملِ پرسش (تاریخچه گفتگو یا اهداف پیچیده) در فرآیند بازیابی لحاظ نشود و بازیابی از کاربر جدا شود.

راهکار PageIndex: تبدیل بازیابی به ناوبری درختی
– PageIndex به‌جای پیش‌محاسبهٔ امبدینگ‌ها، یک «ایندکسِ جهانی» (Global Index) از ساختار سند می‌سازد که به صورت درختی سازمان‌دهی شده است — گره‌ها نمایانگر فصل‌ها، بخش‌ها و زیربخش‌ها هستند.
– هنگام دریافت پرسش، مدل زبانی (LLM) یک جستجوی درختی انجام می‌دهد و برای هر گره به‌صورت صریح تشخیص می‌دهد که مرتبط است یا نه، با توجه به زمینهٔ کامل پرسش. به‌عبارت دیگر، مدل مانند انسانی که ابتدا فهرست مطالب را می‌بیند و سپس مرحله‌به‌مرحله به فصل و صفحهٔ مورد نظر می‌رسد، ناوبری می‌کند.
– این رویکرد ریشه در الگوریتم‌های جستجوی درخت در علوم کامپیوتر دارد و به گفتهٔ توسعه‌دهندگان PageIndex، شبیه یک سیستم AlphaGo‑style برای بازیابی اسناد است؛ یعنی عامل فعال تصمیم می‌گیرد کجا را بگردد، نه اینکه صرفاً متن‌های مشابه را واکشی کند.

نمونه‌های عملی و مزایا
– مثال مالی: وقتی تحلیل‌گری درباره «EBITDA» سؤال می‌کند، بانک برداری ممکن است تمام قسمت‌هایی را که به‌صورت لغوی از واژهٔ EBITDA استفاده کرده‌اند بازگرداند، در حالی که تنها یک بخش ممکن است تعریف دقیق، تنظیمات یا محدوده گزارش‌دهی مرتبط را داشته باشد. یک بازگردانندهٔ مبتنی بر عقلانیت (reasoning‑based retriever) می‌تواند ساختار سند را دنبال کند و بخش تعریف‌کننده را بیابد.
– ارجاعات داخلی و «پرسش‌های چندپله‌ای» (multi‑hop): در گزارش‌هایی که متن اصلی به ضمیمه‌ای اشاره می‌کند، سیستم مبتنی بر درخت می‌تواند از نشانه‌ها پیروی کرده، به ضمیمه برود و جدول یا عدد صحیح را استخراج کند؛ چیزی که معمولاً براساس شباهت معنایی از دست می‌رود.
– عملکرد: در بنچ‌مارکی به نام FinanceBench، سیستمی مبتنی بر PageIndex با نام «Mafin 2.5» توانسته رکورد دقت 98.7% را به‌دست آورد که فاصلهٔ عملکرد آن با سیستم‌های مبتنی بر بردار کاملاً قابل مشاهده است.
– کارآیی و تجربهٔ کاربری: نگرانی اولیه معماری مبتنی بر LLM در مقابل نگاه برداری، تأخیر است؛ اما PageIndex بازیابی را به‌صورت درون‌خطی در فرایند تولید متن انجام می‌دهد، بنابراین مدل می‌تواند بلافاصله شروع به تولید (streaming) کند و Time to First Token (TTFT) قابل مقایسه با فراخوانی‌های معمول LLM باقی می‌ماند.
– ساده‌سازی زیرساخت: با حذف وابستگی به امبدینگ‌ها و بانک برداری، نیاز به نگهداری یک vector store هم از بین می‌رود. ایندکس درختی بسیار سبک است و می‌تواند در پایگاه داده‌های رابطه‌ای مانند PostgreSQL نگهداری شود. همچنین به‌جای بازپردازش کل سند پس از هر ویرایش، تنها زیردرختِ تغییر یافته نیاز به بازایندکس شدن دارد.

محدودیت‌ها و موارد استفاده مناسب
– PageIndex قرار نیست جایگزین مطلقِ جستجوی برداری باشد. برای اسناد کوتاه یا زمانی که هدف صرفاً یافتن متونی با «احساس» یا «شباهت» است (مثلاً پیشنهاد محتوای مشابه)، امبدینگ‌ها مناسب‌ترند.
– حوزهٔ مناسب PageIndex اسناد بلند و بسیار ساختاریافته‌ای است که هزینهٔ خطا در آن‌ها بالا است: گزارش‌های مالی، قراردادهای ادغام و تملیک، مستندات مقرراتی و پرونده‌های FDA، جایی که قابلیت ردیابی مسیر استدلال (auditability) و توضیح مسیر بازیابی ضروری است.

سیاست فنی و چشم‌انداز
– PageIndex متن‌باز است و کد آن در GitHub منتشر شده است، بنابراین سازمان‌ها می‌توانند آن را بررسی، توسعه و در سیستم‌های خود ادغام کنند.
– ظهور این نوع فریم‌ورک‌ها نشانه‌ای از گرایش بزرگ‌تری در معماری AI است که می‌توان آن را «Agentic RAG» نامید؛ یعنی مسئولیت یافتن داده‌ها از لایهٔ دیتابیس به لایهٔ مدل منتقل می‌شود. در حوزه‌هایی مانند جستجوی کد نیز شاهد حرکت به‌سمت عامل‌هایی هستیم که به‌طور فعال کدبیس را کاوش می‌کنند تا به‌جای داوری صرفِ شباهت، استدلال و ناوبری انجام شود.
– توسعه‌دهندگان PageIndex معتقدند که بانک‌های برداری برای برخی کاربردها همچنان مناسب خواهند بود، اما نقش پیش‌فرض و انحصاری آن‌ها در اکوسیستم LLMها در آیندهٔ نزدیک کمتر مشخص خواهد بود.

جمع‌بندی
PageIndex یک تحول مفهومی در بازیابی اسناد طولانی ارائه می‌دهد: تبدیل مسئله از جستجوی شباهت به ناوبری ساختاری. این رویکرد مخصوصاً برای کاربردهای سازمانی حساس به خطا و نیازمند شفافیت مسیر استعلام مناسب است و می‌تواند هزینه‌های نگهداری زیرساخت و خطاهای ناشی از شباهت‌سنجی خام را کاهش دهد. برای سازمان‌هایی که با اسناد بلند و پیچیده کار می‌کنند، PageIndex ارزش آزمایش و ارزیابی در محیط‌های واقعی را دارد.

منبع: مخزن GitHub پروژه PageIndex و گزارش‌های مرتبط با بنچ‌مارک FinanceBench

دستیار هوشمند بینا ویرا

چارچوب جستجوی درختی با دقت ۹۸٫۷٪ روی اسنادی که جستجوی برداری ناکام بود

دیدگاه‌ خود را بنویسید لغو پاسخ