تحقیق جدید استخراج نمایندگان نظارت هماهنگی هوش مصنوعی توسط Anthropic

تحقیقات اخیر تیم Anthropic نشان‌دهنده پیشرفت‌های قابل توجهی در حوزه نظارت بر هماهنگی مدل‌های هوش مصنوعی است. این تحقیقات با هدف ایجاد نمایندگان نظارتی خودکار برای انجام وظایف مربوط به ارزیابی هماهنگی انجام شده‌اند. در این راستا، این پژوهشگران موفق به توسعه سه نماینده هوش مصنوعی شده‌اند که قادرند به‌طور خودکار وظایف ارزیابی هماهنگی را انجام دهند و در عین حال، محدودیت‌های خود را نیز روشن کنند.

این نمایندگان در حین تست‌های پیش از استقرار مدل Claude Opus 4، بهبود یافته‌اند و امکان انجام چندین ارزیابی همزمان در مقیاس بالا را فراهم کردند. نتایج این تحقیقات در پلتفرم GitHub نیز منتشر شده است.

تحقیقات نشان می‌دهد که نمایندگان مذکور توانسته‌اند اهداف پنهان را شناسایی کنند، ارزیابی‌های ایمنی را ایجاد کنند و رفتارهای نگران‌کننده را نمایان سازند. همچنین، پژوهشگران محیط‌هایی را با عنوان “بازی‌های ارزیابی هماهنگی” طراحی کردند که به نمایندگان امکان ارزیابی و تحلیل را می‌دهد.

اولین محیطی که توسط نتایج این پژوهش توسعه یافته، قابلیت ارزیابی یک مدل عمدتاً دارای عدم هماهنگی را آزمایش می‌کند. نتایج پیش‌ تولید نشان داد که نماینده تحقیقاتی توانسته است در ۱۰-۱۳ درصد مواقع، ریشه مشکلات را شناسایی کند. این عملکرد با به‌کارگیری رویکرد نماینده فوق‌العاده، به ۴۲ درصد افزایش یافت.

گام بعدی در ارزیابی‌های هماهنگی معمولاً ارزیابی‌های رفتاری است که بررسی می‌کند آیا مدل در شرایط مختلف به طور مداوم رفتار نادرستی از خود نشان می‌دهد یا خیر. در این تست‌ها، نماینده توانسته است حداقل یکی از رفتارهای غیرطبیعی مدل را شناسایی کند، اگرچه در شناسایی برخی رفتارهای دقیق با مشکل مواجه بوده است.

اعلام این یافته‌ها در شرایطی که موضوع هماهنگی به یکی از چالش‌های اصلی در حوزه هوش مصنوعی تبدیل شده، بسیار اهمیت دارد. کاربران متوجه شدند که مدل‌های زبان مانند ChatGPT ممکن است به طور بیش از حد مطیع پاسخ دهند که خود به مشکلاتی منجر می‌شود. به این ترتیب، لزوم ایجاد رویکردهای نوین و مقیاس‌پذیر برای ارزیابی هماهنگی و کاهش رفتارهای نامطلوب در هوش مصنوعی بیش از پیش احساس می‌شود.

تیم Anthropic تأکید کرده است که هرچند نمایندگان نظارتی نیاز به بهبود دارند، اما ارزیابی هماهنگی باید به‌سرعت آغاز شود تا با توانایی‌های روزافزون سیستم‌های هوش مصنوعی همگام باشد.

تجزیه و تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا