تست یک توسعه‌دهنده برای بررسی واکنش چت‌بات‌های هوش مصنوعی به موضوعات جنجالی

یک توسعه‌دهنده ناشناس به تازگی ابزاری به نام “ارزیابی آزادی بیان” یا SpeechMap ایجاد کرده است که به بررسی چگونگی برخورد مدل‌های هوش مصنوعی با موضوعات حساس و جنجالی می‌پردازد. هدف این ابزار، مقایسه رفتار مدل‌های مختلف، از جمله مدل‌های ChatGPT شرکت OpenAI و Grok شرکت xAI در مواجهه با انتقادات سیاسی و مسائل مربوط به حقوق مدنی و اعتراضات است.

برخی از هم‌پیمانان کاخ سفید به محبوبیت این چت‌بات‌ها انتقاد کرده و آن‌ها را متهم به داشتن رویکردی بیش از حد “آگاهی‌دار” (woke) کرده‌اند. افرادی نزدیک به دونالد ترامپ، از جمله ایلان ماسک و دیوید ساکس به عنوان پنجری در زمینه‌های ارز دیجیتال و هوش مصنوعی، ادعا کرده‌اند که این چت‌بات‌ها نظرات محافظه‌کارانه را سانسور می‌کنند. اگرچه هیچ یک از شرکت‌های فعال در عرصه هوش مصنوعی به‌طور مستقیم به این اتهامات پاسخ نداده‌اند، اما برخی از آن‌ها وعده داده‌اند که مدل‌های خود را به گونه‌ای تنظیم کنند که کمتر به سؤالات جنجالی پاسخ ندهند.

به عنوان مثال، متا در آخرین مدل‌های Llama خود اعلام کرده است که مدل‌ها را طوری تنظیم کرده‌اند که “برخی نظرات را بیشتر از دیگران تأیید نکنند” و به سؤالات سیاسی بحث‌برانگیز بیشتر پاسخ دهند. توسعه‌دهنده SpeechMap با نام کاربری “xlr8harder” ضمن اشاره به اهمیت بحث‌های عمومی در مورد سیاست‌های این مدل‌ها، هدف خود را کمک به آگاهی‌دهی در این زمینه دانسته است.

SpeechMap از مدل‌های هوش مصنوعی برای ارزیابی این که آیا مدل‌های دیگر به مجموعه‌ای از سؤالات آزمون پاسخ می‌دهند یا نه، استفاده می‌کند. این سؤالات به طیف وسیعی از موضوعات از جمله سیاست، روایت‌های تاریخی و نمادهای ملی اشاره دارد. SpeechMap ثبت می‌کند که آیا مدل‌ها به‌طور “کامل” به درخواست پاسخ می‌دهند، پاسخ‌های “اجتنابی” ارائه می‌دهند یا به طور کلی از جواب دادن خودداری می‌کنند.

xlr8harder به وجود نواقص در این ارزیابی اشاره کرده و گفته است که ممکن است تعصبات نهادهای ارائه‌دهنده مدل بر نتیجه تأثیر بگذارد. اما با فرض اینکه این پروژه به‌طور نیک‌خواهانه ایجاد شده و داده‌ها دقیق هستند، SpeechMap روندهای جالبی را به نمایش می‌گذارد. به عنوان مثال، مدل‌های OpenAI به تدریج از پاسخ دادن به سؤالات سیاسی اجتناب کرده‌اند، در حالی که جدیدترین مدل‌های خانواده GPT-4.1 کمی بیشتر اجازه می‌دهند اما هنوز از برخی نسخه‌های قبلی این شرکت کم‌تر هستند.

مدل Grok 3 که توسط استارتاپ هوش مصنوعی xAI به سرپرستی ایلان ماسک توسعه یافته، با یک نرخ پاسخ‌دهی 96.2 درصد به سؤالات آزمون SpeechMap، به‌عنوان مدل با بالاترین میزان انعطاف‌پذیری شناخته می‌شود. این در حالی است که میانگین جهانی این نرخ 71.3 درصد است.

xlr8harder تأکید کرد که اگرچه مدل‌های OpenAI در پاسخ به سؤالات سیاسی حساس انعطاف‌پذیری کمتری پیدا کرده‌اند، اما xAI در حال حرکت به سمت افزایش این انعطاف‌پذیری است. ایلان ماسک در زمانی که Grok را معرفی کرد، این مدل را به عنوان مدلی بی‌فیلتر و جنجالی توصیف کرده بود که آماده پاسخ به سؤالات جنجالی است. در حالی که عملکردهای قبلی Grok در مواجهه با موضوعات سیاسی هوشیارانه‌تر بودند، به نظر می‌رسد که مدل Grok 3 به سمت تحقق این وعده‌ها پیش رفته است.

چت با هوش مصنوعی

تست یک توسعه‌دهنده برای بررسی واکنش چت‌بات‌های هوش مصنوعی به موضوعات جنجالی

دیدگاه‌ خود را بنویسید لغو پاسخ