تحلیل جدید از کارایی مدل‌های زبانی بزرگ در استدلال‌های پیچیده

یک مطالعه جدید از گروه تحقیقاتی مایکروسافت، به بررسی کارایی مدل‌های زبانی بزرگ (LLMs) و اثرات آن در استدلال‌های پیچیده پرداخته است. در این تحقیق عنوان شده که تکنیک‌های «افزایش مقیاس در زمان استنباط» که به تخصیص منابع محاسباتی بیشتر در حین استنباط برای تولید پاسخ‌ها مربوط می‌شود، همواره نتایج مثبتی را تضمین نمی‌کند.

این مطالعه که به بررسی نُه مدل بنیادی پیشرفته پرداخته، شامل مدل‌های «متداولی» چون GPT-4 و Claude 3.5 Sonnet نیز می‌شود. مدل‌هایی که به‌طور خاص برای بهبود استدلال از طریق افزایش مقیاس زمان استنباط تنظیم شده‌اند، نظیر OpenAI’s o1 و o3-mini و Google’s Gemini 2 Flash Thinking، نیز مورد ارزیابی قرار گرفته‌اند.

نویسندگان این تحقیق، عملکرد این مدل‌ها را با استفاده از سه رویکرد مختلف افزایش مقیاس استنباط، بر روی هشت مجموعه داده مرجع پیچیده که شامل وظایف مختلفی از جمله استدلال ریاضی، برنامه‌ریزی تقویمی و مسایل سخت NP می‌شود، آزمایش کردند. آن‌ها دریافتند که متغیر بودن و ناپایداری در مصرف توکن به وضوح در مدل‌های مختلف وجود دارد، به‌طوری که مدل‌هایی با دقت مشابه، ممکن است از لحاظ مصرف توکن تفاوت‌های قابل توجهی داشته باشند.

از جمله یافته‌های مهم این تحقیق، عدم قطعیت در هزینه‌های مربوط به استفاده از این مدل‌ها برای کاربران تجاری است. توکن‌های مورد نیاز برای پاسخ به یک مسئله خاص می‌تواند به طور قابل توجهی متفاوت باشد، حتی زمانی که مدل پاسخ صحیح را ارائه می‌دهد. این واقعیت می‌تواند برنامه‌ریزی مالی و بودجه‌ریزی را برای توسعه‌دهندگان و کاربران مشکل‌ساز کند.

تحقیق همچنین نشان می‌دهد که استفاده از «تایید کننده‌های کامل» (perfect verifier) می‌تواند عملکرد مدل‌ها را به طور معناداری بهبود بخشد، که این امر اهمیت ایجاد مکانیزم‌های تأیید قوی و گسترده‌ را زیر سوال می‌برد. در نهایت، این مطالعه نتایج و بینش‌های مهمی را در زمینه بهینه‌سازی عملکرد مدل‌های زبانی بزرگ و استفاده بهینه از منابع محاسباتی ارائه می‌دهد که می‌تواند به عنوان راهنمایی برای توسعه‌دهندگان و کسب‌وکارها در راستای ادغام هوش مصنوعی پیشرفته در برنامه‌های خود مورد استفاده قرار گیرد.

متن خود را با هوش مصنوعی به تصویر تبدیل کنید

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا