چگونه حافظه رویه‌ای هزینه و پیچیدگی عامل‌های هوش مصنوعی را کاهش می‌دهد

عنوان: معرفی Memp؛ حافظه رویه‌ای پویا برای افزایش کارایی عامل‌های زبانی بزرگ در اتوماسیون سازمانی

محققان دانشگاه ژجیانگ و گروه علی‌بابا یک چارچوب جدید به‌نام Memp معرفی کرده‌اند که به عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM agents) امکان می‌دهد حافظه‌ای رویه‌ای و پویا داشته باشند. این رویکرد باعث می‌شود عامل‌ها در انجام وظایف پیچیده بلندمدت کاراتر، پایدارتر و کم‌هزینه‌تر عمل کنند؛ موضوعی که برای اتوماسیون قابل‌اعتماد در محیط‌های سازمانی حیاتی است.

چالش موجود: شکنندگی در وظایف بلندمدت
عامل‌های LLM در اتوماسیون فرایندهای چندمرحله‌ای نویدبخش‌اند، اما در عمل وظایف با افق زمانی بلند (long-horizon) معمولاً شکننده‌اند. اختلال‌های غیرمنتظره مانند مشکلات شبکه، تغییرات رابط کاربری یا دگرگونی در ساختار داده‌ها می‌تواند فرایند را به کلی مختل کند. سیستم‌های رایج اغلب مجبورند از ابتدا شروع کنند که زمان‌بر و پرهزینه است. علاوه بر این، دانش رویه‌ای فعلی اغلب به‌صورت قالب‌های ثابت یا در پارامترهای مدل نگهداری می‌شود که به‌روزرسانی آن‌ها کند و هزینه‌بر است.

Memp چیست و چگونه کار می‌کند؟
Memp یک چارچوب مستقل از وظیفه (task-agnostic) است که حافظه رویه‌ای را به‌عنوان مؤلفه‌ای قابل بهینه‌سازی می‌پذیرد. این چارچوب در یک حلقهٔ پیوسته سه مرحله کلیدی دارد: ساخت (build)، بازیابی (retrieve) و به‌روزرسانی (update) حافظه. نکات اصلی عبارت‌اند از:

ساخت حافظه: حافظه‌ها از «مسیرها» (trajectories) یا تجارب گذشته عامل استخراج می‌شوند. این تجارب می‌توانند به‌صورت دقیق و مرحله‌به‌مرحله (verbatim) ثبت شوند یا به شکل انتزاعی‌تری به صورت اسکریپت‌های سطح بالاتر تقطیر گردند.
بازیابی حافظه: هنگام مواجهه با یک وظیفه جدید، عامل با جستجو در حافظه بهترین تجربۀ مرتبط را بازیابی می‌کند. روش‌های بازیابی شامل جستجوی برداری (vector search)، استخراج کلیدواژه و تطبیق توصیف وظیفه با تجربیات قبلی است.
به‌روزرسانی حافظه: مؤثرترین بخش Memp سازوکار به‌روزرسانی است. حافظه می‌تواند با اضافه‌کردن تجارب تازه، فیلترکردن برای نگهداری تنها نتایج موفق یا بازاندیشی روی شکست‌ها (reflecting on failures) برای اصلاح و بازنویسی حافظه بهبود یابد.

تمایز با سایر رویکردها
در مقابل کارهایی مانند Mem0 و A‑MEM که بیشتر بر به‌یادسپاری محتوای مهم درون یک مسیر یا گفتگو (what) تمرکز دارند، Memp روی حافظهٔ رویه‌ای میان‌مسیره‌ای (cross-trajectory procedural memory) تمرکز می‌کند—یعنی «چگونگی انجام کار» که در وظایف مشابه قابل تعمیم است. این رویکرد به عامل اجازه می‌دهد تا از بازآموزی مکرر جلوگیری کند و از جریان تجارب موفق، الگوهای قابل استفاده مجدد استخراج نماید.

رفع مشکل شروع سرد (cold-start)
برای ساخت حافظۀ اولیه وقتی نمونهٔ ایده‌آل در دست نیست، پژوهشگران راه‌حل عملی پیشنهاد می‌کنند: تعریف یک معیار ارزیابی (evaluation metric) قوی—که می‌تواند مبتنی بر قواعد یا حتی یک مدل زبان دیگر باشد—و سپس اجازه دادن به مدل‌های پیشرفته برای اکتشاف در چارچوب کاری و نگهداری مسیرهایی که بالاترین امتیاز را کسب می‌کنند. این روش به‌سرعت حافظۀ اولیهٔ مفید را بوت‌استرپ می‌کند بدون نیاز به برنامه‌نویسی دستی گسترده.

نتایج آزمایشی
محققان Memp را بر روی مدل‌های قدرتمندی مانند GPT‑4o، Claude 3.5 Sonnet و Qwen2.5 پیاده‌سازی و در وظایفی همچون کارهای خانگی در معیار ALFWorld و جستجوی اطلاعات در TravelPlanner ارزیابی کردند. نتایج نشان داد که عامل‌هایی که از حافظهٔ رویه‌ای استفاده می‌کنند:
– نرخ موفقیت بالاتری دارند،
– تعداد گام‌های موردنیاز برای تکمیل وظایف کاهش می‌یابد،
– مصرف توکن و جستجوی بی‌ثمر به‌طور چشمگیری کاهش می‌یابد.

قابلیت انتقال حافظه و کاهش هزینه‌ها
یکی از یافته‌های مهم این بود که حافظۀ رویه‌ای قابل انتقال است: حافظه‌ای که توسط مدل بزرگ‌تری (مثلاً GPT‑4o) ایجاد شده بود، به مدلی کوچک‌تر (Qwen2.5‑14B) منتقل شد و عملکرد مدل کوچک‌تر به‌طرز قابل‌توجهی بهبود یافت. این نتیجه نشان می‌دهد می‌توان دانش رویه‌ای را با استفاده از مدل‌های برتر کسب کرد و آن را روی مدل‌های کم‌هزینه‌تر مستقر ساخت—راهکاری مهم برای پیاده‌سازی‌های سازمانی با محدودیت هزینه.

چشم‌انداز و چالش‌های بعدی
اگرچه به‌روزرسانی حافظه امکان یادگیری پیوسته و تسلط نزدیک به خطی بر وظایف را فراهم می‌کند، چالش مهمی در وظایف دنیای واقعی باقی می‌ماند: بسیاری از کارهای پیچیده و ذهنی معیار موفقیت ساده ندارند. برای حل این مشکل، پژوهشگران پیشنهاد می‌کنند از مدل‌های زبان به‌عنوان «داور» (LLM-as-judge) استفاده شود تا بازخورد دقیق‌تر و قابل‌گسترشی برای خوداصلاحی عامل‌ها فراهم گردد. پیاده‌سازی داوری مبتنی بر LLM می‌تواند حلقهٔ یادگیری را مقیاس‌پذیرتر و مقاوم‌تر سازد و گامی تعیین‌کننده در راه ایجاد عامل‌های کاملاً خودگردان و قابل اعتماد برای اتوماسیون سازمانی باشد.

نتیجه‌گیری
Memp یک گام مهم در جهت ایجاد عامل‌های هوش مصنوعی با قابلیت یادگیری مادام‌العمر و دانش رویه‌ای قابل‌تعمیم است. این چارچوب می‌تواند به سازمان‌ها کمک کند تا عامل‌های کم‌هزینه‌تر و قابل اتکاتر را در فرایندهای چندمرحله‌ای و بلندمدت مستقر کنند و در عین حال نیاز به بازآموزی مکرر و هزینه‌های بالای توکن و محاسبات را کاهش دهد. پژوهش‌های آتی روی داوری مبتنی بر LLM و بهبود مکانیزم‌های بازاندیشی برای شکست‌ها می‌تواند کاربرد عملی Memp را در محیط‌های پیچیده و واقعی تسریع کند.

تجزیه و تحلیل تصویر با هوش مصنوعی

چگونه حافظه رویه‌ای هزینه و پیچیدگی عامل‌های هوش مصنوعی را کاهش می‌دهد

دیدگاه‌ خود را بنویسید لغو پاسخ