مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در برخی از آزمونهای ایمنی عملکرد ضعیفتری نسبت به نسخه قبلی خود، یعنی Gemini 2.0 Flash، از خود نشان داده است. بهگزارش داخلی گوگل که در یک گزارش فنی منتشر شده است، این مدل جدید احتمال بیشتری دارد که متونی را تولید کند که با خطوط راهنمای ایمنی شرکت مغایرت دارد. در دو معیار کلیدی، یعنی “ایمنی متن به متن” و “ایمنی تصویر به متن”، Gemini 2.5 Flash بهترتیب ۴.۱٪ و ۹.۶٪ کاهش عملکرد داشته است.
ایمنی متن به متن به این مفهوم است که میزان خلافورزی مدل نسبت به خطوط تعیینشده گوگل را با توجه به یک درخواست اندازهگیری میکند، در حالیکه ایمنی تصویر به متن ارزیابی میکند که مدل چقدر در رعایت این مرزها در پاسخ به یک تصویر پایبند است. لازم به ذکر است که هر دو آزمون بهطور خودکار و بدون نظارت انسانی انجام میشوند.
یک سخنگوی گوگل در بیانیهای تأیید کرد که مدل Gemini 2.5 Flash در زمینه ایمنی متن به متن و تصویر به متن عملکرد ضعیفتری دارد. این نتایج غیرمنتظره در شرایطی منتشر میشود که شرکتهای هوش مصنوعی بهدنبال افزایش تحملپذیری مدلهای خود هستند، بهعبارتی دیگر، تمایل دارند تا پاسخ به مباحث جنجالی یا حساس را بیشتر کنند.
شرکت متا برای جدیدترین مدلهای Llama خود اعلام کرده است که مدلها را بهگونهای تنظیم کرده که برخی دیدگاهها را بهجای دیگران تأیید نکند و به پرسشهای سیاسی پرچالش پاسخ دهد. همچنین، OpenAI نیز اعلام کرد که در آینده مدلهای خود را طوری تغییر خواهد داد که از موضعگیریهای تحریری جلوگیری کند و دیدگاههای مختلفی در موضوعات جنجالی ارائه دهد.
با این حال، این تلاشها گاهی اوقات به نتایج معکوس منجر میشود. بهعنوان مثال، گزارشهایی منتشر شد که نشان میدهد مدل پیشفرض ChatGPT از OpenAI به نوجوانان اجازه میدهد تا مکالمات برهنه تولید کنند، که OpenAI آن را به یک “باگ” نسبت داد.
بهگفته گزارش فنی گوگل، مدل Gemini 2.5 Flash که هنوز در مرحله پیشنمایش قرار دارد، بهطور کلی دستورها را بهطور دقیقتری نسبت به نسخه قبلی خود دنبال میکند، هرچند که گاهی اوقات به تولید محتوای مغایر با سیاستها نیز منجر میشود. این گزارش میافزاید: “طبیعتاً در زمینه دنبال کردن دستورها در موضوعات حساس و نقض سیاست ایمنی، تنشی وجود دارد که در ارزیابیهای ما مشهود است.”
نمرات منبع SpeechMap، که نحوه پاسخگویی مدلها به پرسشهای حساس و جنجالی را مورد بررسی قرار میدهد، نیز نشان میدهد که Gemini 2.5 Flash بسیار کمتر از نسخه قبلی خود حاضر به عدم پاسخ به سوالات جنجالی است. آزمایش TechCrunch از این مدل نیز نشان میدهد که این مدل بهراحتی مقالاتی را در حمایت از جایگزینی قاضیهای انسانی با هوش مصنوعی مینگارد و به تضعیف حفاظتهای روند قانونی در ایالات متحده و اجرای برنامههای نظارت دولتی بدون سابقه قانونی میپردازد.
توماس وودساید، یکی از بنیانگذاران پروژه هوش مصنوعی ایمن، تاکید کرد که جزئیات محدود ارائهشده توسط گوگل در گزارش فنیاش، نیاز به شفافیت بیشتر در آزمایش مدلها را بیشتر نمایان میکند. او گفت: “بین پیروی از دستورات و پیروی از سیاستها یک سازش وجود دارد، زیرا برخی کاربران ممکن است محتوایی را درخواست کنند که نقض رویکردهای سیاستی باشد.”
گوگل پیشتر نیز به دلیل شیوههای گزارشدهی ایمنی مدلهای خود تحت انتقاد قرار گرفته بود. آنها برای انتشار گزارش فنی مدل قدرتمند خود، Gemini 2.5 Pro، هفتهها به طول انجامید و هنگامی که نهایتاً منتشر شد، جزئیات کلیدی ایمنی را ابتدا کنار گذاشت. روز دوشنبه، گوگل گزارش دقیقتری را با اطلاعات ایمنی اضافی منتشر کرد.