ارائه روش جدید METASCALE برای ارتقای عملکرد مدلهای زبانی بزرگ (LLMs)
یک چارچوب نوآورانه به نام METASCALE توسعه یافته است که به مدلهای زبانی بزرگ (LLMs) امکان میدهد در زمان استنتاج، به صورت پویا حالتهای استدلال خود را تنظیم کنند. این روش به منظور رفع یکی از محدودیتهای اصلی LLMها، یعنی استفاده از یک نوع استراتژی استدلال برای تمامی مسائل، معرفی شده است.
چارچوب METASCALE توسط تیمی از محققان دانشگاه کالیفرنیا، دیویس، دانشگاه کالیفرنیای جنوبی و مایکروسافت ریسرچ طراحی شده است. این روش از مفهوم “تفکرات متا” (meta-thoughts) استفاده میکند؛ مجموعهای از استراتژیهای تفکر تطبیقی که برای هر وظیفهای سفارشیسازی شدهاند. این رویکرد میتواند دقت و کارایی کاربردهای LLM را بدون نیاز به تغییر مدل یا اعمال فرآیندهای پیچیده تنظیم مجدد مدل (fine-tuning) بهبود بخشد.
چالشهای فعلی در عملکرد مدلهای LLM
مدلهای زبانی بزرگ اغلب از رفتار استدلالی ثابت و غیرقابل انعطاف برخوردارند. برخلاف انسانها که میتوانند آگاهانه رویکردهای مختلفی را برای حل مسائل انتخاب کنند، LLMها معمولاً مبتنی بر تطبیق الگوها از دادههای آموزشی خود هستند. این موضوع گاهی منجر به نتایجی میشود که با اصول استدلال انسانی مغایرت دارد.
روشهای فعلی برای تنظیم فرآیند استدلال LLMها، مانند روشهای “زنجیره تفکر” (Chain-of-Thought یا CoT)، “خود-اعتباردهی” (self-verification) و “تفکر معکوس” (reverse thinking)، اغلب برای وظایف خاص طراحی شدهاند و توانایی انطباقپذیری آنها در شرایط مختلف محدود است. محققان بیان میکنند این روشها ساختارهای تفکر ثابتی را بر مدلها تحمیل میکنند، به جای اینکه به آنها امکان دهند استراتژیهای مؤثر ویژه هر وظیفه را پویا تعیین کنند.
مفهوم “تفکر متا” در METASCALE
برای پاسخ به این محدودیت، محققان مفهوم جدیدی تحت عنوان “تفکر متا” (meta-thinking) را پیشنهاد دادهاند. این فرآیند به مدلهای LLM اجازه میدهد قبل از تولید پاسخ، روش تفکر خود را ارزیابی کنند. تفکر متا از دو مؤلفه کلیدی الهام گرفته از شناخت انسانی تشکیل میشود:
1. ذهنیت شناختی: چشمانداز، تخصص یا نقشی که مدل برای انجام وظیفه اتخاذ میکند.
2. استراتژی حل مسئله: الگویی ساختاریافته که برای ارائه راهحل مبتنی بر ذهنیت انتخابشده استفاده میشود.
مراحل اجرای METASCALE
با بهرهگیری از مفهوم تفکر متا، چارچوب METASCALE در سه فاز عمل میکند:
-
مرحله ابتدایی (Initialization): ایجاد مجموعهای متنوع از استراتژیهای استدلال بر اساس ورودی اولیه. این مرحله با طراحی پرسشهای خودتولید برای مدل و استفاده از دیتاستهایی با الگوهای استدلالی مختلف انجام میشود.
-
مرحله انتخاب (Selection): انتخاب مؤثرترین “تفکر متا” با استفاده از الگوریتم Multi-Armed Bandit (MAB). این الگوریتم باعث تعادل بین “کاوش” استراتژیهای جدید و “استفاده” از استراتژیهای مؤثر قبلی میشود.
-
مرحله توسعه (Evolution): اصلاح و گسترش استراتژیهای شناختی از طریق الگوریتم ژنتیک. تفکرات متای مؤثر به عنوان “والدین” استفاده شده و تفکرات جدیدتر با بهبود ویژگیهای والدین تولید میشوند.
نتایج آزمایشهای METASCALE
در آزمایشهای انجام شده، METASCALE بر روی مجموعهای از شاخصهای استدلال ریاضی، فهم دانش و زبان و مسائل پیچیده مورد بررسی قرار گرفت. نتایج نشان داد که این چارچوب عملکرد مدلهای LLM را به طور قابل توجهی در مواجهه با وظایف متنوع بهبود میبخشد. حتی در مقایسه با روشهای پیشرفتهتری همچون CoT، METASCALE نتایج برتری ارائه کرده است.
برای مثال، ترکیب METASCALE با مدل GPT-4 نشان داد که این رویکرد در شرایط افزایش تعداد نمونههای کاندیدا، توانایی بالایی برای مقیاسپذیری دارد. همچنین METASCALE نشان داد که میتواند کیفیت پاسخها را بدون نیاز به تنظیم یا تغییر مدل اولیه بهبود دهد.
کاربردهای عملی METASCALE در صنایع مختلف
این روش به دلیل استفاده از تکنیکهای هوشمند در مهندسی پرسشها (Prompt Engineering) و عدم نیاز به تغییر مدل، برای سازمانهای مختلف بسیار کاربردی است. همچنین به دلیل ماهیت “جعبه سیاه”، امکان استفاده از METASCALE بر روی مدلهای متنباز و بسته که از APIهای ثالث استفاده میکنند نیز فراهم است.
METASCALE میتواند کیفیت استدلال مدلهای هوش مصنوعی را در وظایف واقعی به طور چشمگیری ارتقا داده و در طیف وسیعی از کاربردهای صنعتی، از جمله تحلیل داده، پاسخگویی به پرسشهای پیچیده، و ارائه راهحلهای مقیاسپذیر، مؤثر واقع شود.
برای دریافت آخرین اخبار و مطالب اختصاصی در حوزه هوش مصنوعی و پیشرفتهای فناورانه، در خبرنامه روزانه و هفتگی سایت بینا ویرا ثبتنام کنید.