معرفی ابزار جدید پژوهشگران دانشگاه Suzhou: چارچوب Chain-of-Tools برای بهره‌گیری هوشمندانه مدل‌های زبانی از ابزارهای خارجی

پژوهشگران دانشگاه Suzhou چین چارچوبی نوآورانه تحت عنوان Chain-of-Tools (CoTools) معرفی کرده‌اند که هدف آن ارتقاء عملکرد مدل‌های زبانی بزرگ (LLMs) در استفاده از ابزارهای خارجی است. این رویکرد جدید، قابلیت‌هایی کارآمدتر و انعطاف‌پذیرتر نسبت به روش‌های موجود ایجاد می‌کند و به مدل‌های زبانی امکان می‌دهد تا به‌طور مستقیم و بدون نیاز به آموزش اولیه، از گستره‌های وسیع ابزارها در فرآیند استدلال خود استفاده کنند. این ویژگی جذاب به‌خصوص برای سازمان‌هایی که به دنبال ساخت عامل‌های هوش مصنوعی پیشرفته هستند، می‌تواند راهگشا باشد و محدودیت‌های روش‌های کنونی را کاهش دهد.

چالش‌های فعلی و ضرورت استفاده از ابزارهای خارجی برای LLMها

در حالی که مدل‌های زبانی بزرگ در زمینه تولید متن، درک مفاهیم و حتی استدلال‌های پیچیده عملکرد قدرتمندی دارند، بسیاری از وظایف عملی آنها مستلزم تعامل با منابع خارجی مانند پایگاه‌های داده یا اپلیکیشن‌ها است. به‌منظور گسترش قابلیت‌های این مدل‌ها در کاربردهای واقعی، تجهیز آن‌ها به ابزارهای خارجی (APIها یا توابع قابل فراخوانی) ضروری است.

روش‌های موجود برای اتصال ابزارها به مدل‌های زبانی معمولاً با محدودیت‌هایی همراه است. یکی از این روش‌ها، تخصیص مجدد یا Fine-Tuning مدل با نمونه‌هایی از استفاده ابزارها است. این فرآیند ممکن است مدل را به استفاده از ابزارهای خاص محدود کرده و حتی کیفیت استدلال عمومی آن، مثل توانایی در زنجیره استدلال (CoT) را کاهش دهد.

روش دیگر، یادگیری درون‌متنی (In-Context Learning) است که با ارائه توضیحات و نمونه‌های استفاده ابزارها به مدل، امکان استفاده از ابزارهایی که قبلاً تعلیم داده نشده‌اند را فراهم می‌کند. اما این رویکرد، مشکلاتی همچون پیچیدگی در ساخت پرسش‌ها و افت کارایی در مواجهه با طیف وسیعی از ابزارها را به‌همراه دارد.

ویژگی‌های برتر CoTools: ترکیب نوآورانه برای استفاده هوشمندانه از ابزارها

چارچوب جدید CoTools، ترکیبی از توانمندی‌های تخصیص مجدد و یادگیری معنایی را ارائه می‌دهد، بدون اینکه نیاز باشد به وزن‌های پایه‌ای مدل اصلی دست زده شود. در این روش، به‌جای تغییر کامل مدل، ماژول‌های سبک و تخصصی همراه با مدل اصلی در فرآیند تولید به کار گرفته می‌شوند.

بر طبق مقاله منتشر شده توسط پژوهشگران، مفهوم اصلی CoTools مبتنی بر استفاده از قابلیت‌های نمایشی معنایی مدل‌های پایه برای تصمیم‌گیری در فراخوانی ابزارها است. در این سیستم، CoTools از حالت‌های مخفی (Hidden States) مدل—که در طی پردازش متن و تولید توکن‌ها ایجاد می‌شوند—برای انتخاب کارآمد ابزارها بهره می‌برد.

اجزای اصلی CoTools

چارچوب CoTools شامل سه بخش اصلی است که به‌صورت متوالی در فرآیند استدلال مدل عمل می‌کنند:

  1. Tool Judge (داور ابزار): این بخش، حالت‌های مخفی مدل را بررسی کرده و تصمیم می‌گیرد که آیا در نقطه‌ای از زنجیره استدلال نیاز به فراخوانی ابزار وجود دارد یا خیر.

  2. Tool Retriever (یابنده ابزار): در صورت نیاز به ابزار، این بخش مناسب‌ترین ابزار را از میان گزینه‌ها انتخاب می‌کند. این انتخاب مبتنی بر قابلیت‌های معنایی سیستم برای مقایسه پرسش با ابزارهای موجود، حتی ابزارهایی که قبلاً تعلیم داده نشده‌اند، انجام می‌شود.

  3. Tool Calling (فراخوانی ابزار): بعد از انتخاب ابزار، CoTools از رویکرد یادگیری درون متنی هدفمند برای ارائه پارامترهای ابزار استفاده می‌کند. سپس نتیجه حاصل از اجرای ابزار به فرآیند پاسخ‌دهی مدل بازگردانده می‌شود.

این رویکرد نوآورانه امکان تطبیق با ابزارهای جدید را فراهم می‌کند و به مدل اجازه می‌دهد تا بدون کاهش عملکرد اصلی، به‌کارگیری مؤثرتر ابزارهای خارجی را تجربه کند. نکته مهم این است که CoTools تنها برای مدل‌های آزاد مانند Llama و Mistral قابل استفاده است و امکان اجرا روی مدل‌های خصوصی مانند GPT-4 یا Claude وجود ندارد.

ارزیابی و نتایج پژوهشی

پژوهشگران CoTools عملکرد این چارچوب را در دو سناریوی کاربردی مورد بررسی قرار داده‌اند:
استدلال عددی: که نیازمند استفاده از ابزارهای حسابی است.
پاسخ‌دهی به سؤال بر پایه دانش: که شامل بازیابی اطلاعات از پایگاه‌های دانش می‌شود.

در آزمایش‌ها، CoTools عملکردی قابل مقایسه با ChatGPT در وظایف عددی و برتری نسبت به روش‌های مشابه مثل ToolkenGPT در وظایف پیچیده‌تر نشان داد. همچنین در پاسخ‌دهی به سؤال‌ها بر پایه دانش، CoTools توانست انتخاب ابزارهای مناسب را با دقت بالا انجام دهد، حتی زمانی که تعداد ابزارها بسیار زیاد و ناشناخته بود.

کاربردهای عملی و آینده CoTools

چارچوب Chain-of-Tools پتانسیل ایجاد تحول در استفاده از مدل‌های زبانی در محیط‌های سازمانی را دارد. با توسعه استانداردهایی مانند Model Context Protocol (MCP)، امکان ادغام ابزارهای خارجی با عامل‌های هوش مصنوعی فراهم می‌شود و سازمان‌ها می‌توانند بدون نیاز به هزینه‌های بالای آموزش مجدد، عامل‌هایی انعطاف‌پذیر و قدرتمند بسازند.

به‌گفته پژوهشگران، این رویکرد اولین قدم در مسیر ایجاد سیستم‌های هوشمند مجهز به ابزارهای گسترده است. کدهای مربوط به ماژول‌های CoTools نیز به‌صورت متن‌باز در GitHub منتشر شده‌اند.

در نهایت، CoTools با حفظ توانایی‌های پایه‌ای مدل، استفاده هوشمندانه‌ای از ابزارها را ممکن می‌کند و می‌تواند نقشی کلیدی در توسعه عامل‌های هوش مصنوعی در دنیای واقعی ایفا کند. برای اطلاعات بیشتر می‌توانید به مقاله اصلی و کدهای ارائه‌شده این تیم تحقیقاتی مراجعه کنید.

تبدیل متن به صوت با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا