عنوان: PageIndex — فریمورک متنباز که بازیابی اسناد بسیار طولانی را با «جستجوی درختی» متحول میکند
چکیده: PageIndex یک فریمورک متنباز است که رویکرد سنتی RAG (Retrieval‑Augmented Generation) را کنار گذاشته و بهجای «بخشبندی و امبدینگ» به مسئله بازیابی به چشم «ناوبریِ ساختار سند» نگاه میکند. این روش برای کارهای حساسِ سازمانی مانند تحلیل گزارشهای مالی، بررسی قراردادهای حقوقی و مرور پروتکلهای دارویی که به دقت و ردیابی مسیر استناد نیاز دارند، راهحل عملی و قابل اتکایی ارائه میدهد.
مشکل پایهای در RAG سنتی
– در روش رایج RAG اسناد به بخشهای کوچک تقسیم و برای هر بخش امبدینگ محاسبه و در یک بانک برداری (vector database) ذخیره میشود. بازیابی بر پایه شباهت معنایی انجام میگیرد.
– این رویکرد برای سوالهای ساده یا اسناد کوتاه مناسب است، اما در اسناد بلند و ساختاریافته (مانند گزارشهای سالانه یا مستندات فنی) با «شکاف نیت در برابر محتوا» مواجه میشود: متنهایی با واژگان یکسان ممکن است از نظر منطقی و مرجعداری کاملاً متفاوت باشند.
– همچنین محدودیت طول ورودی در مدلهای امبدینگ باعث میشود زمینهٔ کاملِ پرسش (تاریخچه گفتگو یا اهداف پیچیده) در فرآیند بازیابی لحاظ نشود و بازیابی از کاربر جدا شود.
راهکار PageIndex: تبدیل بازیابی به ناوبری درختی
– PageIndex بهجای پیشمحاسبهٔ امبدینگها، یک «ایندکسِ جهانی» (Global Index) از ساختار سند میسازد که به صورت درختی سازماندهی شده است — گرهها نمایانگر فصلها، بخشها و زیربخشها هستند.
– هنگام دریافت پرسش، مدل زبانی (LLM) یک جستجوی درختی انجام میدهد و برای هر گره بهصورت صریح تشخیص میدهد که مرتبط است یا نه، با توجه به زمینهٔ کامل پرسش. بهعبارت دیگر، مدل مانند انسانی که ابتدا فهرست مطالب را میبیند و سپس مرحلهبهمرحله به فصل و صفحهٔ مورد نظر میرسد، ناوبری میکند.
– این رویکرد ریشه در الگوریتمهای جستجوی درخت در علوم کامپیوتر دارد و به گفتهٔ توسعهدهندگان PageIndex، شبیه یک سیستم AlphaGo‑style برای بازیابی اسناد است؛ یعنی عامل فعال تصمیم میگیرد کجا را بگردد، نه اینکه صرفاً متنهای مشابه را واکشی کند.
نمونههای عملی و مزایا
– مثال مالی: وقتی تحلیلگری درباره «EBITDA» سؤال میکند، بانک برداری ممکن است تمام قسمتهایی را که بهصورت لغوی از واژهٔ EBITDA استفاده کردهاند بازگرداند، در حالی که تنها یک بخش ممکن است تعریف دقیق، تنظیمات یا محدوده گزارشدهی مرتبط را داشته باشد. یک بازگردانندهٔ مبتنی بر عقلانیت (reasoning‑based retriever) میتواند ساختار سند را دنبال کند و بخش تعریفکننده را بیابد.
– ارجاعات داخلی و «پرسشهای چندپلهای» (multi‑hop): در گزارشهایی که متن اصلی به ضمیمهای اشاره میکند، سیستم مبتنی بر درخت میتواند از نشانهها پیروی کرده، به ضمیمه برود و جدول یا عدد صحیح را استخراج کند؛ چیزی که معمولاً براساس شباهت معنایی از دست میرود.
– عملکرد: در بنچمارکی به نام FinanceBench، سیستمی مبتنی بر PageIndex با نام «Mafin 2.5» توانسته رکورد دقت 98.7% را بهدست آورد که فاصلهٔ عملکرد آن با سیستمهای مبتنی بر بردار کاملاً قابل مشاهده است.
– کارآیی و تجربهٔ کاربری: نگرانی اولیه معماری مبتنی بر LLM در مقابل نگاه برداری، تأخیر است؛ اما PageIndex بازیابی را بهصورت درونخطی در فرایند تولید متن انجام میدهد، بنابراین مدل میتواند بلافاصله شروع به تولید (streaming) کند و Time to First Token (TTFT) قابل مقایسه با فراخوانیهای معمول LLM باقی میماند.
– سادهسازی زیرساخت: با حذف وابستگی به امبدینگها و بانک برداری، نیاز به نگهداری یک vector store هم از بین میرود. ایندکس درختی بسیار سبک است و میتواند در پایگاه دادههای رابطهای مانند PostgreSQL نگهداری شود. همچنین بهجای بازپردازش کل سند پس از هر ویرایش، تنها زیردرختِ تغییر یافته نیاز به بازایندکس شدن دارد.
محدودیتها و موارد استفاده مناسب
– PageIndex قرار نیست جایگزین مطلقِ جستجوی برداری باشد. برای اسناد کوتاه یا زمانی که هدف صرفاً یافتن متونی با «احساس» یا «شباهت» است (مثلاً پیشنهاد محتوای مشابه)، امبدینگها مناسبترند.
– حوزهٔ مناسب PageIndex اسناد بلند و بسیار ساختاریافتهای است که هزینهٔ خطا در آنها بالا است: گزارشهای مالی، قراردادهای ادغام و تملیک، مستندات مقرراتی و پروندههای FDA، جایی که قابلیت ردیابی مسیر استدلال (auditability) و توضیح مسیر بازیابی ضروری است.
سیاست فنی و چشمانداز
– PageIndex متنباز است و کد آن در GitHub منتشر شده است، بنابراین سازمانها میتوانند آن را بررسی، توسعه و در سیستمهای خود ادغام کنند.
– ظهور این نوع فریمورکها نشانهای از گرایش بزرگتری در معماری AI است که میتوان آن را «Agentic RAG» نامید؛ یعنی مسئولیت یافتن دادهها از لایهٔ دیتابیس به لایهٔ مدل منتقل میشود. در حوزههایی مانند جستجوی کد نیز شاهد حرکت بهسمت عاملهایی هستیم که بهطور فعال کدبیس را کاوش میکنند تا بهجای داوری صرفِ شباهت، استدلال و ناوبری انجام شود.
– توسعهدهندگان PageIndex معتقدند که بانکهای برداری برای برخی کاربردها همچنان مناسب خواهند بود، اما نقش پیشفرض و انحصاری آنها در اکوسیستم LLMها در آیندهٔ نزدیک کمتر مشخص خواهد بود.
جمعبندی
PageIndex یک تحول مفهومی در بازیابی اسناد طولانی ارائه میدهد: تبدیل مسئله از جستجوی شباهت به ناوبری ساختاری. این رویکرد مخصوصاً برای کاربردهای سازمانی حساس به خطا و نیازمند شفافیت مسیر استعلام مناسب است و میتواند هزینههای نگهداری زیرساخت و خطاهای ناشی از شباهتسنجی خام را کاهش دهد. برای سازمانهایی که با اسناد بلند و پیچیده کار میکنند، PageIndex ارزش آزمایش و ارزیابی در محیطهای واقعی را دارد.
منبع: مخزن GitHub پروژه PageIndex و گزارشهای مرتبط با بنچمارک FinanceBench
