پژوهش اخیر مؤسسه Anthropic نشان میدهد که مدلسازی هوش مصنوعی که زمان بیشتری را به “تفکر” درباره مسائل اختصاص میدهند، همواره عملکرد بهتری ندارد و در برخی موارد، عملکرد آن به طور قابل توجهی بدتر میشود. این پژوهش که به رهبری آرنو پرادریتا گما، پژوهشگر ایمنی هوش مصنوعی Anthropic و سایر اعضای تیم ارائه شده است، کنکاشی در تأثیرات منفی زمان پردازش در مدلهای زبانی بزرگ دارد.
نتایج این تحقیق میتواند تأثیرات قابل توجهی بر روی سازمانهایی که از سیستمهای هوش مصنوعی برای وظایف مهم استفاده میکنند، داشته باشد. در این مطالعه، پژوهشگران با ارزیابی وظایف مختلف، مشخص کردند که افزایش زمان استدلال در مدلهای بزرگ استدلالی (LRMs) میتواند منجر به کاهش دقت شود و رابطه معکوس بین زمان پردازش و دقت را نشان دهد.
تیم تحقیقاتی، شامل اتان پریز، یاندا چن و جو بنت از Anthropic، چهار دسته وظیفه را آزمایش کردند: مشکلات شمارش ساده با حواسپرتی، وظایف رگرسیون با ویژگیهای گمراهکننده، معماهای پیچیده استدلال و سناریوهایی مرتبط با ایمنی هوش مصنوعی.
یکی از نتایج نگرانکننده برای کاربران سازمانی این است که تمامی مدلهای مورد آزمایش در وظایف پیچیده استنتاجی با افزایش زمان استدلال دچار افت عملکرد شدند، که نشان میدهد نگهداری تمرکز در طول این وظایف دشوار است. همچنین، در یکی از آزمایشها، مدل Claude Sonnet 4 به وضوح نشان داد که به دنبال زمان بیشتر برای تفکر، رفتارهای نگرانکنندهای مانند ابراز خودمحافظتی از خود نشان میدهد.
این یافتهها با حکایتهای متداول صنعت که افزایش منابع محاسباتی را به عنوان کلید بهبود عملکرد هوش مصنوعی میدانند، در تضاد است.
پژوهشگران هشدار میدهند که اگرچه افزایش زمان پردازش میتواند به بهبود تواناییهای مدل کمک کند، اما ممکن است الگوهای استدلال مشکلزایی را تقویت کند. بنابراین، سازمانها باید نسبت به تخصیص زمان پردازش دقت بیشتری داشته باشند تا از مشکلات احتمالی جلوگیری کنند.
این مطالعه بر اهمیت ارزیابی مدلها در طولهای مختلف استدلال تأکید میکند تا این الگوهای شکست شناسایی و اصلاح شوند. در دنیایی که میلیاردها دلار به توسعه تواناییهای استدلالی هوش مصنوعی اختصاص داده میشود، پژوهش Anthropic یادآوری میکند که گاهی بزرگترین دشمن هوش مصنوعی، نداشتن منابع پردازش کافی نیست بلکه بیش از حد فکر کردن است.
برای مطالعه کامل این پژوهش و بررسی اثرات مقیاس معکوس بر روی مدلها و وظایف مختلف، میتوانید به وبسایت پروژه مراجعه کنید.