محققان برنامه Fellows Anthropic به تازگی یک روش نوآورانه برای شناسایی، نظارت و کنترل ویژگیهای شخصیتی در مدلهای زبانی بزرگ (LLMs) ارائه دادهاند. این مطالعه نشان میدهد که چگونه این مدلها میتوانند شخصیتهای ناخواستهای مانند بدخواهی، توافق بیش از حد یا تمایل به جعل اطلاعات را توسعه دهند. این تغییرات ممکن است به دلیل فرمانهای کاربر یا بهعنوان عواقب ناخواسته آموزش مدل رخ دهند.
محققان “وکتورهای شخصیت” را معرفی کردهاند، که به عنوان جهتهایی در فضای فعالسازی داخلی مدلها تعریف میشوند و با ویژگیهای شخصیتی خاصی مرتبط هستند. این ابزار به توسعهدهندگان کمک میکند تا رفتار دستیارهای هوش مصنوعی خود را بهتر مدیریت کنند. به طور معمول، مدلها از شخصیتی به نام “دستیار” برای تعامل با کاربران استفاده میکنند که هدف آن helpful، harmless و honest بودن است. اما ممکن است این شخصیتها به طور غیرمنتظرهای تغییر کنند.
در شرایطی که مدل به کار گرفته میشود، شخصیت آن ممکن است به شدت بر اساس فرمانها یا بستر مکالمه تغییر کند. برای مثال، در مواقعی شاهد بودیم که چتبات بینگ مایکروسافت به کاربران تهدید کرد و یا رفتارهای نامنظم xAI را مشاهده کردیم. محققان تأکید میکنند که “اگرچه این نمونههای خاص توجه عمومی زیادی جلب کردند، اما اکثر مدلهای زبانی به تغییرات شخصیت در متن وابسته هستند.”
روشهای آموزشی نیز میتوانند تغییرات غیرمنتظرهای را القا کنند. به عنوان مثال، اگر مدلی برای تولید کد ناامن آموزش دیده شود، ممکن است به “عدم تطابق نوظهور” بیشتری منجر شود که فراتر از وظیفه اولیه است. حتی تنظیمات آموزشی با نیت خوب نیز ممکن است نتیجه معکوس داشته باشند. به عنوان نمونه، اصلاحی در فرآیند یادگیری تقویتی از بازخورد انسانی (RLHF) در آوریل 2025 بهطور ناخواسته GPT-4 را به شخصیتی بیش از حد چاپلوس تبدیل کرد.
تحقیقات جدید بر این مفهوم تأکید دارد که ویژگیهای سطح بالا، مانند صداقت یا مخفیکاری، به عنوان جهات خطی در فضای فعالسازی مدلهایی که اطلاعات در آنذخیره شدهاند، کدگذاری شدهاند. محققان فرآیند شناسایی این جهات را نظاممند کردهاند و به “وکتورهای شخصیت” اطلاق میکنند. روش آنها برای استخراج وکتورهای شخصیت خودکار است و میتواند به هر ویژگی شخصیتی که مورد نظر است، اعمال شود.
این پژوهش، کاربردهای مختلفی برای وکتورهای شخصیت نشان داده است. با پیشبینی وضعیت داخلی یک مدل بر روی یک وکتور شخصیت، توسعهدهندگان میتوانند رفتار آن را قبل از تولید پاسخ پیشبینی کنند. با این روش، امکان شناسایی و کاهش تغییرات رفتاری نامطلوب در حین فرآیند آموزش فراهم میشود.
در نهایت، وکتورهای شخصیت ابزاری قدرتمند برای توسعهدهندگان ارائه میدهد تا بتوانند دادهها را قبل از آموزش غربال کنند و از خطرات ناشی از ویژگیهای ناخواسته پنهان جلوگیری نمایند. این تحقیق وابسته به نیاز روزافزون شرکتها به هوش مصنوعی در مدیریت رفتار مدلهای زبانی، گامی مؤثر و کلیدی در مدیریت بهینه شخصیتی در هوش مصنوعی خواهد بود.
