نتایج یک مطالعه جدید درباره یادگیری پنهان در مدلهای زبانی
بهتازگی یک مطالعه از Anthropic نشان میدهد که مدلهای زبانی ممکن است در فرآیند تقطیر (Distillation) ویژگیهای پنهانی را یاد بگیرند، که این روش بهعنوان یک تکنیک محبوب برای بهینهسازی مدلها برای وظایف خاص شناخته میشود. این ویژگیهای پنهان که نویسندگان آن را «یادگیری پنهان» نامیدهاند، در برخی موارد ممکن است بیضرر باشند، اما تحقیقات نشان میدهد که میتوانند به نتایج ناخواستهای مانند عدم همراستایی و رفتارهای مضر منجر شوند.
تقطیر یک تکنیک رایج در توسعه برنامههای هوش مصنوعی است که در آن یک مدل «دانشآموز» کوچکتر، طوری آموزش میبیند که خروجیهای یک مدل «معلم» بزرگتر و توانمندتر را تقلید کند. این فرآیند معمولاً برای ایجاد مدلهای تخصصی که کوچکتر، کمهزینهتر و سریعتر باشند، مورد استفاده قرار میگیرد. اما این تحقیق، ویژگی تعجبآوری از این فرآیند را آشکار کرده است. محققان دریافتهاند که مدلهای معلم میتوانند ویژگیهای رفتاری را به مدلهای دانشآموز منتقل کنند، حتی زمانی که دادههای تولید شده بهطور کامل به آن ویژگیها مربوط نباشد.
برای آزمایش این پدیده که آن را یادگیری پنهان مینامند، محققان یک فرآیند ساختاریافته را دنبال کردند. آنها با یک مدل مرجع اولیه شروع کردند و یک مدل «معلم» را با هدایت یا بهینهسازی آن برای نمایش یک ویژگی خاص (مانند علاقه به حیوانات خاص یا درختان) ایجاد کردند. سپس این مدل معلم برای تولید دادهها در یک حوزه باریک و ناهماهنگ، مانند توالیهای عددی یا تکههای کد، استفاده شد. دادههای تولید شده پس از فیلتر کردن دقیق برای حذف هرگونه اشاره صریح به ویژگیهای مورد نظر، مورد ارزیابی قرار گرفت.
یادگیری پنهان زمانی رخ میدهد که مدل دانشآموز ویژگی معلم را بدون آنکه دادههای آموزشی بهطور معنایی به آن ویژگیها مرتبط باشند، کسب کند. این اثر در میان ویژگیهای مختلف از جمله ترجیحات حیوانی بیضرر و عدم همراستایی خطرناک، ثابت بود. نکته نگرانکننده این است که مدلهای منحرف میتوانند تمایلات مضر خود را از طریق توالیهای عددی ظاهراً بیضرر منتقل کنند.
محققان همچنین بررسی کردند که آیا نشانههای معنایی پنهان در دادهها مسئول این عدم تطابق هستند یا خیر. آنها دریافتند که سایر مدلهای هوش مصنوعی که بهعنوان طبقهبند آموزش دیده بودند، نتوانستند ویژگیهای منتقلشده در دادهها را شناسایی کنند. این شواهد نشان میدهد که انتقال ناشی از الگوهای در دادههای تولید شده است که بهطور معنایی به ویژگیهای پنهان مرتبط نیستند.
تحقیقات نشان میدهد که یادگیری پنهان زمانی که مدلهای معلم و دانشآموز بر اساس معماری بنیادی یکسانی نباشند، متوقف میشود. بهطور مثال، ویژگیهای حاصل از یک معلم مبتنی بر GPT-4.1 بر یک مدل دانشآموز GPT-4.1 منتقل میشود، اما بر یک مدل دانشآموز مبتنی بر Qwen2.5 منتقل نمیشود.
این یافتهها دارای پیامدهای قابل توجهی برای ایمنی هوش مصنوعی در محیطهای سازمانی هستند. این تحقیق خطر مشابهی به مسمومیت دادهها را نشان میدهد که در آن یک حملهکننده دادههای آموزشی را دستکاری میکند تا یک مدل را به خطر بیندازد. با این حال، برخلاف مسمومیت دادههای سنتی، یادگیری پنهان هدفمند نیست و نیاز به بهینهسازی دادهها توسط حملهکننده ندارد.
نکته مهم این است که استفاده از مدلهای بزرگ برای تولید دادههای مصنوعی بهمنظور آموزش یک روند عمده و صرفهجویی در هزینه است؛ اما این مطالعه نشان میدهد که این روش ممکن است بهطور ناخواسته مدلهای جدید را مسموم کند.
برای شرکتهایی که بهطور گستردهای به مجموعههای داده تولید شده توسط مدلها وابستهاند، پیشنهاد میشود از کمیتهای متنوع از مدلهای تولیدکننده استفاده کنند تا خطر را به حداقل برسانند. ولی در عین حال، محققان تاکید دارند که سادهترین روش جلوگیری از یادگیری پنهان، اطمینان از اینکه مدلهای معلم و دانشآموز از خانوادههای مختلفی باشند، است.
این یافتهها نشاندهنده نیاز به ارزیابیهای ایمنی عمیقتر نسبت به رفتار مدلها هستند. برای شرکتهایی که مدلها را در زمینههای پرخطر مانند مالی یا بهداشت و درمان به کار میگیرند، این سؤال مطرح میشود که چه نوع آزمایشها یا نظارتهای جدیدی ضروری است.
بهمنظور یافتن راهحلهای عملی، بهترین قدم اول میتواند انجام ارزیابیهای دقیق مدلها در شرایطی باشد که تا حد امکان به شرایط استفاده نزدیک باشد.
این تحقیق روندهای آینده را برای شرکتها در حوزه هوش مصنوعی تعیین خواهد کرد و به آنها کمک خواهد کرد تا از خطرات یادگیری پنهان در مدلهای هوش مصنوعی آگاهی پیدا کنند.
