عنوان: معرفی Memp؛ حافظه رویهای پویا برای افزایش کارایی عاملهای زبانی بزرگ در اتوماسیون سازمانی
محققان دانشگاه ژجیانگ و گروه علیبابا یک چارچوب جدید بهنام Memp معرفی کردهاند که به عاملهای مبتنی بر مدلهای زبانی بزرگ (LLM agents) امکان میدهد حافظهای رویهای و پویا داشته باشند. این رویکرد باعث میشود عاملها در انجام وظایف پیچیده بلندمدت کاراتر، پایدارتر و کمهزینهتر عمل کنند؛ موضوعی که برای اتوماسیون قابلاعتماد در محیطهای سازمانی حیاتی است.
چالش موجود: شکنندگی در وظایف بلندمدت
عاملهای LLM در اتوماسیون فرایندهای چندمرحلهای نویدبخشاند، اما در عمل وظایف با افق زمانی بلند (long-horizon) معمولاً شکنندهاند. اختلالهای غیرمنتظره مانند مشکلات شبکه، تغییرات رابط کاربری یا دگرگونی در ساختار دادهها میتواند فرایند را به کلی مختل کند. سیستمهای رایج اغلب مجبورند از ابتدا شروع کنند که زمانبر و پرهزینه است. علاوه بر این، دانش رویهای فعلی اغلب بهصورت قالبهای ثابت یا در پارامترهای مدل نگهداری میشود که بهروزرسانی آنها کند و هزینهبر است.
Memp چیست و چگونه کار میکند؟
Memp یک چارچوب مستقل از وظیفه (task-agnostic) است که حافظه رویهای را بهعنوان مؤلفهای قابل بهینهسازی میپذیرد. این چارچوب در یک حلقهٔ پیوسته سه مرحله کلیدی دارد: ساخت (build)، بازیابی (retrieve) و بهروزرسانی (update) حافظه. نکات اصلی عبارتاند از:
- ساخت حافظه: حافظهها از «مسیرها» (trajectories) یا تجارب گذشته عامل استخراج میشوند. این تجارب میتوانند بهصورت دقیق و مرحلهبهمرحله (verbatim) ثبت شوند یا به شکل انتزاعیتری به صورت اسکریپتهای سطح بالاتر تقطیر گردند.
- بازیابی حافظه: هنگام مواجهه با یک وظیفه جدید، عامل با جستجو در حافظه بهترین تجربۀ مرتبط را بازیابی میکند. روشهای بازیابی شامل جستجوی برداری (vector search)، استخراج کلیدواژه و تطبیق توصیف وظیفه با تجربیات قبلی است.
- بهروزرسانی حافظه: مؤثرترین بخش Memp سازوکار بهروزرسانی است. حافظه میتواند با اضافهکردن تجارب تازه، فیلترکردن برای نگهداری تنها نتایج موفق یا بازاندیشی روی شکستها (reflecting on failures) برای اصلاح و بازنویسی حافظه بهبود یابد.
تمایز با سایر رویکردها
در مقابل کارهایی مانند Mem0 و A‑MEM که بیشتر بر بهیادسپاری محتوای مهم درون یک مسیر یا گفتگو (what) تمرکز دارند، Memp روی حافظهٔ رویهای میانمسیرهای (cross-trajectory procedural memory) تمرکز میکند—یعنی «چگونگی انجام کار» که در وظایف مشابه قابل تعمیم است. این رویکرد به عامل اجازه میدهد تا از بازآموزی مکرر جلوگیری کند و از جریان تجارب موفق، الگوهای قابل استفاده مجدد استخراج نماید.
رفع مشکل شروع سرد (cold-start)
برای ساخت حافظۀ اولیه وقتی نمونهٔ ایدهآل در دست نیست، پژوهشگران راهحل عملی پیشنهاد میکنند: تعریف یک معیار ارزیابی (evaluation metric) قوی—که میتواند مبتنی بر قواعد یا حتی یک مدل زبان دیگر باشد—و سپس اجازه دادن به مدلهای پیشرفته برای اکتشاف در چارچوب کاری و نگهداری مسیرهایی که بالاترین امتیاز را کسب میکنند. این روش بهسرعت حافظۀ اولیهٔ مفید را بوتاسترپ میکند بدون نیاز به برنامهنویسی دستی گسترده.
نتایج آزمایشی
محققان Memp را بر روی مدلهای قدرتمندی مانند GPT‑4o، Claude 3.5 Sonnet و Qwen2.5 پیادهسازی و در وظایفی همچون کارهای خانگی در معیار ALFWorld و جستجوی اطلاعات در TravelPlanner ارزیابی کردند. نتایج نشان داد که عاملهایی که از حافظهٔ رویهای استفاده میکنند:
– نرخ موفقیت بالاتری دارند،
– تعداد گامهای موردنیاز برای تکمیل وظایف کاهش مییابد،
– مصرف توکن و جستجوی بیثمر بهطور چشمگیری کاهش مییابد.
قابلیت انتقال حافظه و کاهش هزینهها
یکی از یافتههای مهم این بود که حافظۀ رویهای قابل انتقال است: حافظهای که توسط مدل بزرگتری (مثلاً GPT‑4o) ایجاد شده بود، به مدلی کوچکتر (Qwen2.5‑14B) منتقل شد و عملکرد مدل کوچکتر بهطرز قابلتوجهی بهبود یافت. این نتیجه نشان میدهد میتوان دانش رویهای را با استفاده از مدلهای برتر کسب کرد و آن را روی مدلهای کمهزینهتر مستقر ساخت—راهکاری مهم برای پیادهسازیهای سازمانی با محدودیت هزینه.
چشمانداز و چالشهای بعدی
اگرچه بهروزرسانی حافظه امکان یادگیری پیوسته و تسلط نزدیک به خطی بر وظایف را فراهم میکند، چالش مهمی در وظایف دنیای واقعی باقی میماند: بسیاری از کارهای پیچیده و ذهنی معیار موفقیت ساده ندارند. برای حل این مشکل، پژوهشگران پیشنهاد میکنند از مدلهای زبان بهعنوان «داور» (LLM-as-judge) استفاده شود تا بازخورد دقیقتر و قابلگسترشی برای خوداصلاحی عاملها فراهم گردد. پیادهسازی داوری مبتنی بر LLM میتواند حلقهٔ یادگیری را مقیاسپذیرتر و مقاومتر سازد و گامی تعیینکننده در راه ایجاد عاملهای کاملاً خودگردان و قابل اعتماد برای اتوماسیون سازمانی باشد.
نتیجهگیری
Memp یک گام مهم در جهت ایجاد عاملهای هوش مصنوعی با قابلیت یادگیری مادامالعمر و دانش رویهای قابلتعمیم است. این چارچوب میتواند به سازمانها کمک کند تا عاملهای کمهزینهتر و قابل اتکاتر را در فرایندهای چندمرحلهای و بلندمدت مستقر کنند و در عین حال نیاز به بازآموزی مکرر و هزینههای بالای توکن و محاسبات را کاهش دهد. پژوهشهای آتی روی داوری مبتنی بر LLM و بهبود مکانیزمهای بازاندیشی برای شکستها میتواند کاربرد عملی Memp را در محیطهای پیچیده و واقعی تسریع کند.
