«یادگیری زیرآستانه‌ای: کشف عادات نادرست در یادگیری هوش مصنوعی توسط آنتروپیک»

نتایج یک مطالعه جدید درباره یادگیری پنهان در مدل‌های زبانی

به‌تازگی یک مطالعه از Anthropic نشان می‌دهد که مدل‌های زبانی ممکن است در فرآیند تقطیر (Distillation) ویژگی‌های پنهانی را یاد بگیرند، که این روش به‌عنوان یک تکنیک محبوب برای بهینه‌سازی مدل‌ها برای وظایف خاص شناخته می‌شود. این ویژگی‌های پنهان که نویسندگان آن را «یادگیری پنهان» نامیده‌اند، در برخی موارد ممکن است بی‌ضرر باشند، اما تحقیقات نشان می‌دهد که می‌توانند به نتایج ناخواسته‌ای مانند عدم هم‌راستایی و رفتارهای مضر منجر شوند.

تقطیر یک تکنیک رایج در توسعه برنامه‌های هوش مصنوعی است که در آن یک مدل «دانش‌آموز» کوچک‌تر، طوری آموزش می‌بیند که خروجی‌های یک مدل «معلم» بزرگ‌تر و توانمندتر را تقلید کند. این فرآیند معمولاً برای ایجاد مدل‌های تخصصی که کوچک‌تر، کم‌هزینه‌تر و سریع‌تر باشند، مورد استفاده قرار می‌گیرد. اما این تحقیق، ویژگی تعجب‌آوری از این فرآیند را آشکار کرده است. محققان دریافته‌اند که مدل‌های معلم می‌توانند ویژگی‌های رفتاری را به مدل‌های دانش‌آموز منتقل کنند، حتی زمانی که داده‌های تولید شده به‌طور کامل به آن ویژگی‌ها مربوط نباشد.

برای آزمایش این پدیده که آن را یادگیری پنهان می‌نامند، محققان یک فرآیند ساختاریافته را دنبال کردند. آن‌ها با یک مدل مرجع اولیه شروع کردند و یک مدل «معلم» را با هدایت یا بهینه‌سازی آن برای نمایش یک ویژگی خاص (مانند علاقه به حیوانات خاص یا درختان) ایجاد کردند. سپس این مدل معلم برای تولید داده‌ها در یک حوزه باریک و ناهماهنگ، مانند توالی‌های عددی یا تکه‌های کد، استفاده شد. داده‌های تولید شده پس از فیلتر کردن دقیق برای حذف هرگونه اشاره صریح به ویژگی‌های مورد نظر، مورد ارزیابی قرار گرفت.

یادگیری پنهان زمانی رخ می‌دهد که مدل دانش‌آموز ویژگی معلم را بدون آنکه داده‌های آموزشی به‌طور معنایی به آن ویژگی‌ها مرتبط باشند، کسب کند. این اثر در میان ویژگی‌های مختلف از جمله ترجیحات حیوانی بی‌ضرر و عدم هم‌راستایی خطرناک، ثابت بود. نکته نگران‌کننده این است که مدل‌های منحرف می‌توانند تمایلات مضر خود را از طریق توالی‌های عددی ظاهراً بی‌ضرر منتقل کنند.

محققان همچنین بررسی کردند که آیا نشانه‌های معنایی پنهان در داده‌ها مسئول این عدم تطابق هستند یا خیر. آن‌ها دریافتند که سایر مدل‌های هوش مصنوعی که به‌عنوان طبقه‌بند آموزش دیده بودند، نتوانستند ویژگی‌های منتقل‌شده در داده‌ها را شناسایی کنند. این شواهد نشان می‌دهد که انتقال ناشی از الگوهای در داده‌های تولید شده است که به‌طور معنایی به ویژگی‌های پنهان مرتبط نیستند.

تحقیقات نشان می‌دهد که یادگیری پنهان زمانی که مدل‌های معلم و دانش‌آموز بر اساس معماری بنیادی یکسانی نباشند، متوقف می‌شود. به‌طور مثال، ویژگی‌های حاصل از یک معلم مبتنی بر GPT-4.1 بر یک مدل دانش‌آموز GPT-4.1 منتقل می‌شود، اما بر یک مدل دانش‌آموز مبتنی بر Qwen2.5 منتقل نمی‌شود.

این یافته‌ها دارای پیامدهای قابل توجهی برای ایمنی هوش مصنوعی در محیط‌های سازمانی هستند. این تحقیق خطر مشابهی به مسمومیت داده‌ها را نشان می‌دهد که در آن یک حمله‌کننده داده‌های آموزشی را دستکاری می‌کند تا یک مدل را به خطر بیندازد. با این حال، برخلاف مسمومیت داده‌های سنتی، یادگیری پنهان هدفمند نیست و نیاز به بهینه‌سازی داده‌ها توسط حمله‌کننده ندارد.

نکته مهم این است که استفاده از مدل‌های بزرگ برای تولید داده‌های مصنوعی به‌منظور آموزش یک روند عمده و صرفه‌جویی در هزینه است؛ اما این مطالعه نشان می‌دهد که این روش ممکن است به‌طور ناخواسته مدل‌های جدید را مسموم کند.

برای شرکت‌هایی که به‌طور گسترده‌ای به مجموعه‌های داده تولید شده توسط مدل‌ها وابسته‌اند، پیشنهاد می‌شود از کمیته‌ای متنوع از مدل‌های تولیدکننده استفاده کنند تا خطر را به حداقل برسانند. ولی در عین حال، محققان تاکید دارند که ساده‌ترین روش جلوگیری از یادگیری پنهان، اطمینان از اینکه مدل‌های معلم و دانش‌آموز از خانواده‌های مختلفی باشند، است.

این یافته‌ها نشان‌دهنده نیاز به ارزیابی‌های ایمنی عمیق‌تر نسبت به رفتار مدل‌ها هستند. برای شرکت‌هایی که مدل‌ها را در زمینه‌های پرخطر مانند مالی یا بهداشت و درمان به کار می‌گیرند، این سؤال مطرح می‌شود که چه نوع آزمایش‌ها یا نظارت‌های جدیدی ضروری است.

به‌منظور یافتن راه‌حل‌های عملی، بهترین قدم اول می‌تواند انجام ارزیابی‌های دقیق مدل‌ها در شرایطی باشد که تا حد امکان به شرایط استفاده نزدیک باشد.

این تحقیق روندهای آینده را برای شرکت‌ها در حوزه هوش مصنوعی تعیین خواهد کرد و به آن‌ها کمک خواهد کرد تا از خطرات یادگیری پنهان در مدل‌های هوش مصنوعی آگاهی پیدا کنند.

راهنمای هوش مصنوعی

«یادگیری زیرآستانه‌ای: کشف عادات نادرست در یادگیری هوش مصنوعی توسط آنتروپیک»

دیدگاه‌ خود را بنویسید لغو پاسخ