تحقیق جدید استخراج نمایندگان نظارت هماهنگی هوش مصنوعی توسط Anthropic
تحقیقات اخیر تیم Anthropic نشاندهنده پیشرفتهای قابل توجهی در حوزه نظارت بر هماهنگی مدلهای هوش مصنوعی است. این تحقیقات با هدف ایجاد نمایندگان نظارتی خودکار برای انجام وظایف مربوط به ارزیابی هماهنگی انجام شدهاند. در این راستا، این پژوهشگران موفق به توسعه سه نماینده هوش مصنوعی شدهاند که قادرند بهطور خودکار وظایف ارزیابی هماهنگی را انجام دهند و در عین حال، محدودیتهای خود را نیز روشن کنند.
این نمایندگان در حین تستهای پیش از استقرار مدل Claude Opus 4، بهبود یافتهاند و امکان انجام چندین ارزیابی همزمان در مقیاس بالا را فراهم کردند. نتایج این تحقیقات در پلتفرم GitHub نیز منتشر شده است.
تحقیقات نشان میدهد که نمایندگان مذکور توانستهاند اهداف پنهان را شناسایی کنند، ارزیابیهای ایمنی را ایجاد کنند و رفتارهای نگرانکننده را نمایان سازند. همچنین، پژوهشگران محیطهایی را با عنوان “بازیهای ارزیابی هماهنگی” طراحی کردند که به نمایندگان امکان ارزیابی و تحلیل را میدهد.
اولین محیطی که توسط نتایج این پژوهش توسعه یافته، قابلیت ارزیابی یک مدل عمدتاً دارای عدم هماهنگی را آزمایش میکند. نتایج پیش تولید نشان داد که نماینده تحقیقاتی توانسته است در ۱۰-۱۳ درصد مواقع، ریشه مشکلات را شناسایی کند. این عملکرد با بهکارگیری رویکرد نماینده فوقالعاده، به ۴۲ درصد افزایش یافت.
گام بعدی در ارزیابیهای هماهنگی معمولاً ارزیابیهای رفتاری است که بررسی میکند آیا مدل در شرایط مختلف به طور مداوم رفتار نادرستی از خود نشان میدهد یا خیر. در این تستها، نماینده توانسته است حداقل یکی از رفتارهای غیرطبیعی مدل را شناسایی کند، اگرچه در شناسایی برخی رفتارهای دقیق با مشکل مواجه بوده است.
اعلام این یافتهها در شرایطی که موضوع هماهنگی به یکی از چالشهای اصلی در حوزه هوش مصنوعی تبدیل شده، بسیار اهمیت دارد. کاربران متوجه شدند که مدلهای زبان مانند ChatGPT ممکن است به طور بیش از حد مطیع پاسخ دهند که خود به مشکلاتی منجر میشود. به این ترتیب، لزوم ایجاد رویکردهای نوین و مقیاسپذیر برای ارزیابی هماهنگی و کاهش رفتارهای نامطلوب در هوش مصنوعی بیش از پیش احساس میشود.
تیم Anthropic تأکید کرده است که هرچند نمایندگان نظارتی نیاز به بهبود دارند، اما ارزیابی هماهنگی باید بهسرعت آغاز شود تا با تواناییهای روزافزون سیستمهای هوش مصنوعی همگام باشد.