بیشتر سیستم‌های RAG اسناد پیچیده را درک نمی‌کنند و آن‌ها را تکه‌تکه می‌کنند

چرا پیاده‌سازی‌های معمول RAG در پروژه‌های مهندسی ناکافی است و راه‌حل‌های عملی برای افزایش دقت

سیستم‌های RAG (Retrieval-Augmented Generation) وعده ساده‌ای دارند: کافی است پی‌دی‌اف‌ها و مستندات شرکت را فهرست‌بندی کنید، یک مدل زبان بزرگ وصل کنید و دانش سازمانی را فراگیر کنید. اما در صنایع مهندسی‌محور این وعده اغلب به واقعیت نمی‌پیوندد. پرسش‌های دقیق مهندسی درباره تجهیزات، جداول مشخصات و دیاگرام‌ها باعث می‌شود مدل‌ها مرتکب توهم (hallucination) شوند — و مشکل از خود LLM نیست؛ مشکل در پیش‌پردازش داده‌ها است.

مشکل اصلی: تقسیم‌بندی متنی ساده (fixed-size chunking)
پایپ‌لاین‌های استاندارد RAG اسناد را به رشته‌های متنی مسطح تبدیل و با شمارش کاراکتر یا توکن آن‌ها را به بخش‌های ثابت (مثلاً هر 500 کاراکتر) می‌شکنند. این روش برای متون روایی مناسب است اما منطق و ساختار دفترچه‌های فنی را نابود می‌کند: جداول را نصفه نصفه می‌کند، زیرنویس‌ها را از تصاویر جدا می‌سازد و سلسله‌مراتب بصری صفحه را نادیده می‌گیرد. نتیجه: پایگاه داده برداری، هدر جدول را جدا و مقدار مرتبط را در بخش دیگری ذخیره می‌کند؛ هنگام پرسش کاربر، بازیابی تنها هدر را می‌آورد و مدل مجبور به حدس‌زدن می‌شود.

چاره اول: تقسیم‌بندی معنایی و آگاهی از طرح‌بندی (layout-aware parsing)
به‌جای شمارش کاراکترها، باید از «هوش سند» استفاده کرد. ابزارهای پردازش آگاه از طرح‌بندی (مانند Azure Document Intelligence و نمونه‌های مشابه) می‌توانند اسناد را بر اساس فصل‌ها، بخش‌ها، پاراگراف‌ها، و ساختار منطقی تقسیم کنند. مزایا:
– حفظ انسجام منطقی: بخش‌های مرتبط (مثلاً شرح یک قطعه ماشین) به‌عنوان یک واحد برداری نگه داشته می‌شوند، حتی اگر طول متفاوت داشته باشند.
– حفظ جداول: مرز جدول‌ها شناسایی و شبکه جدول به‌صورت یک بخش واحد نگهداری می‌شود تا روابط سطر-ستون از بین نرود.
آزمون‌های داخلی نشان داده‌اند که جایگزینی تقسیم‌بندی با اندازه ثابت با تقسیم‌بندی معنایی دقت بازیابی جداول و مشخصات فنی را به‌طور قابل توجهی افزایش می‌دهد.

چاره دوم: متنی‌سازی چندوجهیِ تصاویر و دیاگرام‌ها
بخش بزرگی از دانش سازمانی در قالب نمودارها، فلوچارت‌ها و نقشه‌های معماری سیستم است که مدل‌های ایمبدینگ متنی معمولی قادر به «دیدن» آن‌ها نیستند. راه‌حل چندمرحله‌ای مؤثر:
– OCR دقیق: استخراج برچسب‌ها و متن داخل تصاویر با دقت بالا.
– توصیف‌سازی مولد (Generative captioning): مدل‌های بصری (مثلاً نسخه‌های دیداری GPT-4o یا نمونه‌های مشابه) تصاویر و دیاگرام‌ها را تحلیل و به توصیف طبیعی و قابل جستجو تبدیل می‌کنند.
– ایمبدینگ ترکیبی: این توصیف‌ها به شکل بردار در کنار مرجع تصویر ذخیره می‌شوند تا جستجوهای مرتبط بتوانند پاسخ‌هایی از تصاویر را نیز بیابند.
نتیجه: وقتی کاربر به دنبال «جریان دما» یا «روال قطع اتصال» می‌گردد، سیستم می‌تواند توصیفِ مرتبط با یک PNG یا SVG را بازیابی کند، حتی اگر متن خام داخل فایل قابل‌شمارش نباشد.

قابلیت بازبینی و استناد بصری برای اعتماد سازمانی
دقت تنها نیمی از معماست؛ نیمه دیگر اعتمادپذیری. رابط‌های معمولی RAG تنها نام فایل یا صفحه را ذکر می‌کنند و کاربر باید خود PDF را باز کند تا صحت پاسخ را بررسی کند — در مسائل حساس امنیتی یا ایمنی، این کفایت نمی‌کند. با حفظ لینک بین بخش‌های برداری و منبع تصویری/جدولی در فاز پیش‌پردازش، می‌توان «ارجاع بصری» (visual citation) ارائه داد: همچنین نمایش جدول یا نمودار دقیق به‌همراه پاسخ به کاربر اجازه می‌دهد تا فوراً «کار مدل» را بررسی کند و اعتماد به خروجی را افزایش می‌دهد.

چشم‌انداز فنی: ایمبدینگ چندوجهی بومی و مدل‌های با کانتکس بلند
هم‌اکنون راهکار عملی، خط لوله چندمرحله‌ای است؛ اما روندها نشان می‌دهد مدل‌های ایمبدینگ چندوجهی بومی (که متن و تصویر را در یک فضای برداری نگاشت می‌کنند) و مدل‌های LLM با پنجره کانتکست طولانی می‌توانند ترکیبِ پیش‌پردازش را ساده یا حتی حذف کنند. تا آن زمان، تقسیم‌بندی معنایی و متنی‌سازیِ بصری اقتصادی‌ترین و مؤثرترین استراتژی برای سیستم‌های RAG در محیط‌های تولیدی و در زمان واقعی باقی می‌ماند.

نتیجه‌گیری
تفاوت بین یک دموی RAG و یک سیستم قابل‌اعتماد در نحوه برخورد با «واقعیت نامرتب» داده‌های سازمانی است. اسناد را دیگر به‌عنوان رشته‌های ساده متن نگیرید: ساختار صفحات، جداول و تصاویر را محترم بشمارید. با اجرای تقسیم‌بندی معنایی و آزادسازی داده‌های بصری داخل نمودارها و جداول، می‌توانید سیستم RAG خود را از یک «جستجوگر کلیدی‌واژه» به یک «دستیار دانش» واقعی تبدیل کنید.

منبع: Dippu Kumar Singh — معمار هوش مصنوعی و مهندس داده

چت با هوش مصنوعی

بیشتر سیستم‌های RAG اسناد پیچیده را درک نمی‌کنند و آن‌ها را تکه‌تکه می‌کنند

دیدگاه‌ خود را بنویسید لغو پاسخ