تحلیل جدید از کارایی مدلهای زبانی بزرگ در استدلالهای پیچیده
یک مطالعه جدید از گروه تحقیقاتی مایکروسافت، به بررسی کارایی مدلهای زبانی بزرگ (LLMs) و اثرات آن در استدلالهای پیچیده پرداخته است. در این تحقیق عنوان شده که تکنیکهای «افزایش مقیاس در زمان استنباط» که به تخصیص منابع محاسباتی بیشتر در حین استنباط برای تولید پاسخها مربوط میشود، همواره نتایج مثبتی را تضمین نمیکند.
این مطالعه که به بررسی نُه مدل بنیادی پیشرفته پرداخته، شامل مدلهای «متداولی» چون GPT-4 و Claude 3.5 Sonnet نیز میشود. مدلهایی که بهطور خاص برای بهبود استدلال از طریق افزایش مقیاس زمان استنباط تنظیم شدهاند، نظیر OpenAI’s o1 و o3-mini و Google’s Gemini 2 Flash Thinking، نیز مورد ارزیابی قرار گرفتهاند.
نویسندگان این تحقیق، عملکرد این مدلها را با استفاده از سه رویکرد مختلف افزایش مقیاس استنباط، بر روی هشت مجموعه داده مرجع پیچیده که شامل وظایف مختلفی از جمله استدلال ریاضی، برنامهریزی تقویمی و مسایل سخت NP میشود، آزمایش کردند. آنها دریافتند که متغیر بودن و ناپایداری در مصرف توکن به وضوح در مدلهای مختلف وجود دارد، بهطوری که مدلهایی با دقت مشابه، ممکن است از لحاظ مصرف توکن تفاوتهای قابل توجهی داشته باشند.
از جمله یافتههای مهم این تحقیق، عدم قطعیت در هزینههای مربوط به استفاده از این مدلها برای کاربران تجاری است. توکنهای مورد نیاز برای پاسخ به یک مسئله خاص میتواند به طور قابل توجهی متفاوت باشد، حتی زمانی که مدل پاسخ صحیح را ارائه میدهد. این واقعیت میتواند برنامهریزی مالی و بودجهریزی را برای توسعهدهندگان و کاربران مشکلساز کند.
تحقیق همچنین نشان میدهد که استفاده از «تایید کنندههای کامل» (perfect verifier) میتواند عملکرد مدلها را به طور معناداری بهبود بخشد، که این امر اهمیت ایجاد مکانیزمهای تأیید قوی و گسترده را زیر سوال میبرد. در نهایت، این مطالعه نتایج و بینشهای مهمی را در زمینه بهینهسازی عملکرد مدلهای زبانی بزرگ و استفاده بهینه از منابع محاسباتی ارائه میدهد که میتواند به عنوان راهنمایی برای توسعهدهندگان و کسبوکارها در راستای ادغام هوش مصنوعی پیشرفته در برنامههای خود مورد استفاده قرار گیرد.