گزارش جدید درباره مدل‌های زبان و نحوه مدیریت سوگیری‌های آنها

با توجه به چالش‌های موجود در زمینه حذف سوگیری و سانسور در مدل‌های زبانی بزرگ (LLMs)، یک مدل جدید به نام DeepSeek از چین مورد توجه قرار گرفته است. این مدل که به عنوان یک تهدید جدی برای امنیت ملی آمریکا معرفی شده، نگرانی‌هایی را در میان سیاستمداران و کارشناسان صنعتی ایجاد کرده است. کمیته‌ای ویژه در کنگره ایالات متحده اخیراً گزارشی را صادر کرده که در آن DeepSeek را “یک تهدید عمیق برای امنیت کشور” توصیف کرده و توصیه‌های سیاستی را ارائه داده است.

در حالی که روش‌هایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) برای دور زدن سوگیری‌ها وجود دارد، یک استارتاپ مدیریت ریسک به نام CTGT ادعا می‌کند که روشی متفاوت ارائه داده که به‌طور کامل سانسور را حذف می‌کند. بر اساس مقاله‌ای که توسط سیریل گورلا و تراور تاتل از CTGT نوشته شده، این چارچوب به‌طور مستقیم ویژگی‌های داخلی مسئول سانسور را شناسایی و اصلاح می‌کند.

به‌عنوان نمونه، در این مقاله آمده است: “این روش نه تنها از نظر محاسباتی کارآمد است، بلکه کنترل دقیقی بر رفتار مدل فراهم می‌کند و اطمینان حاصل می‌کند که پاسخ‌های بدون سانسور ارائه می‌شوند، بدون اینکه قابلیت‌ها و دقت کلی مدل تحت تأثیر قرار گیرد.” اگرچه این روش به‌طور خاص برای مدل DeepSeek-R1-Distill-Llama-70B طراحی شده، اما قابلیت استفاده بر روی سایر مدل‌ها را نیز دارد.

گورلا در یک گفت‌وگو با VentureBeat اظهار داشت: “ما CTGT را با مدل‌های دارای وزن‌های باز مانند Llama آزمایش کردیم و این روش همچنان مؤثر بود.” به گفته محققان، این روش ویژگی‌هایی را شناسایی می‌کند که احتمال بالایی برای ارتباط با رفتارهای ناخواسته دارند.

CTGT مراحل کلیدی این فرآیند را در سه بخش ویژگی‌یابی، جداسازی و شناسایی ویژگی، و تغییرات دینامیکی ویژگی‌ها خلاصه کرده است. با تحلیل پاسخ‌ها به مجموعه‌ای از پرسش‌ها که ممکن است سو احساسات سمی را تحریک کند، می‌توان به یک الگو دست یافت و ویژگی‌های سانسور را شناسایی و اصلاح کرد.

تجارب انجام شده با استفاده از 100 پرسش حساس نشان داد که مدل پایه DeepSeek-R1-Distill-Llama-70B تنها به 32% از درخواست‌های جنجالی پاسخ می‌دهد، در حالی که نسخه اصلاح‌شده به 96% از آنها پاسخ داده است. این نتایج به شدت نگران‌کننده‌ای را در خصوص قابلیت‌های سانسوری مدل‌های زبان نشان می‌دهد.

گزارش کنگره در مورد DeepSeek تأکید دارد که ایالات متحده باید اقدامات فوری برای گسترش کنترل‌های صادراتی و بهبود اجرای آنها اتخاذ کند. با شدت گرفتن سوالات درباره تهدیدات بالقوه DeepSeek علیه امنیت ملی، محققان و شرکت‌های هوش مصنوعی به دنبال راه‌هایی برای ایمن‌سازی مدل‌ها هستند.

گورلا به این نکته اشاره کرد که “شرکت‌ها باید بتوانند به مدل‌های خود اعتماد کنند که با سیاست‌هایشان سازگار باشند.” به همین دلیل، روش‌های مشابهی که او و همکارانش توسعه داده‌اند، برای کسب‌وکارها ضروری هستند. CTGT به شرکت‌ها این امکان را می‌دهد که هوش مصنوعی را با تطبیق‌پذیری بیشتری به کار ببندند، بدون نیاز به صرف هزینه‌های کلان برای تنظیم مجدد مدل‌ها.

به‌طور کلی، این روند نوآورانه می‌تواند به افزایش کارآیی و امنیت استفاده از فناوری‌های هوش مصنوعی در کاربردهای حساس، از جمله امنیت، مالی و بهداشت و درمان کمک کند و در عین حال از خطرات ناشی از نقص عملکرد مدل‌ها جلوگیری کند.

دستیار صوتی هوشمند پیشرفته

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا