گزارش جدید درباره مدلهای زبان و نحوه مدیریت سوگیریهای آنها
با توجه به چالشهای موجود در زمینه حذف سوگیری و سانسور در مدلهای زبانی بزرگ (LLMs)، یک مدل جدید به نام DeepSeek از چین مورد توجه قرار گرفته است. این مدل که به عنوان یک تهدید جدی برای امنیت ملی آمریکا معرفی شده، نگرانیهایی را در میان سیاستمداران و کارشناسان صنعتی ایجاد کرده است. کمیتهای ویژه در کنگره ایالات متحده اخیراً گزارشی را صادر کرده که در آن DeepSeek را “یک تهدید عمیق برای امنیت کشور” توصیف کرده و توصیههای سیاستی را ارائه داده است.
در حالی که روشهایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) برای دور زدن سوگیریها وجود دارد، یک استارتاپ مدیریت ریسک به نام CTGT ادعا میکند که روشی متفاوت ارائه داده که بهطور کامل سانسور را حذف میکند. بر اساس مقالهای که توسط سیریل گورلا و تراور تاتل از CTGT نوشته شده، این چارچوب بهطور مستقیم ویژگیهای داخلی مسئول سانسور را شناسایی و اصلاح میکند.
بهعنوان نمونه، در این مقاله آمده است: “این روش نه تنها از نظر محاسباتی کارآمد است، بلکه کنترل دقیقی بر رفتار مدل فراهم میکند و اطمینان حاصل میکند که پاسخهای بدون سانسور ارائه میشوند، بدون اینکه قابلیتها و دقت کلی مدل تحت تأثیر قرار گیرد.” اگرچه این روش بهطور خاص برای مدل DeepSeek-R1-Distill-Llama-70B طراحی شده، اما قابلیت استفاده بر روی سایر مدلها را نیز دارد.
گورلا در یک گفتوگو با VentureBeat اظهار داشت: “ما CTGT را با مدلهای دارای وزنهای باز مانند Llama آزمایش کردیم و این روش همچنان مؤثر بود.” به گفته محققان، این روش ویژگیهایی را شناسایی میکند که احتمال بالایی برای ارتباط با رفتارهای ناخواسته دارند.
CTGT مراحل کلیدی این فرآیند را در سه بخش ویژگییابی، جداسازی و شناسایی ویژگی، و تغییرات دینامیکی ویژگیها خلاصه کرده است. با تحلیل پاسخها به مجموعهای از پرسشها که ممکن است سو احساسات سمی را تحریک کند، میتوان به یک الگو دست یافت و ویژگیهای سانسور را شناسایی و اصلاح کرد.
تجارب انجام شده با استفاده از 100 پرسش حساس نشان داد که مدل پایه DeepSeek-R1-Distill-Llama-70B تنها به 32% از درخواستهای جنجالی پاسخ میدهد، در حالی که نسخه اصلاحشده به 96% از آنها پاسخ داده است. این نتایج به شدت نگرانکنندهای را در خصوص قابلیتهای سانسوری مدلهای زبان نشان میدهد.
گزارش کنگره در مورد DeepSeek تأکید دارد که ایالات متحده باید اقدامات فوری برای گسترش کنترلهای صادراتی و بهبود اجرای آنها اتخاذ کند. با شدت گرفتن سوالات درباره تهدیدات بالقوه DeepSeek علیه امنیت ملی، محققان و شرکتهای هوش مصنوعی به دنبال راههایی برای ایمنسازی مدلها هستند.
گورلا به این نکته اشاره کرد که “شرکتها باید بتوانند به مدلهای خود اعتماد کنند که با سیاستهایشان سازگار باشند.” به همین دلیل، روشهای مشابهی که او و همکارانش توسعه دادهاند، برای کسبوکارها ضروری هستند. CTGT به شرکتها این امکان را میدهد که هوش مصنوعی را با تطبیقپذیری بیشتری به کار ببندند، بدون نیاز به صرف هزینههای کلان برای تنظیم مجدد مدلها.
بهطور کلی، این روند نوآورانه میتواند به افزایش کارآیی و امنیت استفاده از فناوریهای هوش مصنوعی در کاربردهای حساس، از جمله امنیت، مالی و بهداشت و درمان کمک کند و در عین حال از خطرات ناشی از نقص عملکرد مدلها جلوگیری کند.