مدل جدید هوش مصنوعی Gemini گوگل در زمینه ایمنی عملکرد ضعیف‌تری دارد

مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در برخی از آزمون‌های ایمنی عملکرد ضعیف‌تری نسبت به نسخه قبلی خود، یعنی Gemini 2.0 Flash، از خود نشان داده است. به‌گزارش داخلی گوگل که در یک گزارش فنی منتشر شده است، این مدل جدید احتمال بیشتری دارد که متونی را تولید کند که با خطوط راهنمای ایمنی شرکت مغایرت دارد. در دو معیار کلیدی، یعنی “ایمنی متن به متن” و “ایمنی تصویر به متن”، Gemini 2.5 Flash به‌ترتیب ۴.۱٪ و ۹.۶٪ کاهش عملکرد داشته است.

ایمنی متن به متن به این مفهوم است که میزان خلاف‌ورزی مدل نسبت به خطوط تعیین‌شده گوگل را با توجه به یک درخواست اندازه‌گیری می‌کند، در حالی‌که ایمنی تصویر به متن ارزیابی می‌کند که مدل چقدر در رعایت این مرزها در پاسخ به یک تصویر پایبند است. لازم به ذکر است که هر دو آزمون به‌طور خودکار و بدون نظارت انسانی انجام می‌شوند.

یک سخنگوی گوگل در بیانیه‌ای تأیید کرد که مدل Gemini 2.5 Flash در زمینه ایمنی متن به متن و تصویر به متن عملکرد ضعیف‌تری دارد. این نتایج غیرمنتظره در شرایطی منتشر می‌شود که شرکت‌های هوش مصنوعی به‌دنبال افزایش تحمل‌پذیری مدل‌های خود هستند، به‌عبارتی دیگر، تمایل دارند تا پاسخ به مباحث جنجالی یا حساس را بیشتر کنند.

شرکت متا برای جدیدترین مدل‌های Llama خود اعلام کرده است که مدل‌ها را به‌گونه‌ای تنظیم کرده که برخی دیدگاه‌ها را به‌جای دیگران تأیید نکند و به پرسش‌های سیاسی پرچالش پاسخ دهد. همچنین، OpenAI نیز اعلام کرد که در آینده مدل‌های خود را طوری تغییر خواهد داد که از موضع‌گیری‌های تحریری جلوگیری کند و دیدگاه‌های مختلفی در موضوعات جنجالی ارائه دهد.

با این حال، این تلاش‌ها گاهی اوقات به نتایج معکوس منجر می‌شود. به‌عنوان مثال، گزارش‌هایی منتشر شد که نشان می‌دهد مدل پیش‌فرض ChatGPT از OpenAI به نوجوانان اجازه می‌دهد تا مکالمات برهنه تولید کنند، که OpenAI آن را به یک “باگ” نسبت داد.

به‌گفته گزارش فنی گوگل، مدل Gemini 2.5 Flash که هنوز در مرحله پیش‌نمایش قرار دارد، به‌طور کلی دستورها را به‌طور دقیق‌تری نسبت به نسخه قبلی خود دنبال می‌کند، هرچند که گاهی اوقات به تولید محتوای مغایر با سیاست‌ها نیز منجر می‌شود. این گزارش می‌افزاید: “طبیعتاً در زمینه دنبال کردن دستورها در موضوعات حساس و نقض سیاست ایمنی، تنشی وجود دارد که در ارزیابی‌های ما مشهود است.”

نمرات منبع SpeechMap، که نحوه پاسخ‌گویی مدل‌ها به پرسش‌های حساس و جنجالی را مورد بررسی قرار می‌دهد، نیز نشان می‌دهد که Gemini 2.5 Flash بسیار کمتر از نسخه قبلی خود حاضر به عدم پاسخ به سوالات جنجالی است. آزمایش TechCrunch از این مدل نیز نشان می‌دهد که این مدل به‌راحتی مقالاتی را در حمایت از جایگزینی قاضی‌های انسانی با هوش مصنوعی می‌نگارد و به تضعیف حفاظت‌های روند قانونی در ایالات متحده و اجرای برنامه‌های نظارت دولتی بدون سابقه قانونی می‌پردازد.

توماس وودساید، یکی از بنیان‌گذاران پروژه هوش مصنوعی ایمن، تاکید کرد که جزئیات محدود ارائه‌شده توسط گوگل در گزارش فنی‌اش، نیاز به شفافیت بیشتر در آزمایش مدل‌ها را بیشتر نمایان می‌کند. او گفت: “بین پیروی از دستورات و پیروی از سیاست‌ها یک سازش وجود دارد، زیرا برخی کاربران ممکن است محتوایی را درخواست کنند که نقض رویکردهای سیاستی باشد.”

گوگل پیش‌تر نیز به دلیل شیوه‌های گزارش‌دهی ایمنی مدل‌های خود تحت انتقاد قرار گرفته بود. آن‌ها برای انتشار گزارش فنی مدل قدرتمند خود، Gemini 2.5 Pro، هفته‌ها به طول انجامید و هنگامی که نهایتاً منتشر شد، جزئیات کلیدی ایمنی را ابتدا کنار گذاشت. روز دوشنبه، گوگل گزارش دقیقتری را با اطلاعات ایمنی اضافی منتشر کرد.

چت بات پیشرفته

مدل جدید هوش مصنوعی Gemini گوگل در زمینه ایمنی عملکرد ضعیف‌تری دارد

دیدگاه‌ خود را بنویسید لغو پاسخ