افزایش ایمنی مدل‌های هوش مصنوعی OpenAI با راهکار جدید برای جلوگیری از خطرات بیولوژیکی

OpenAI اعلام کرده است که یک سیستم جدید برای نظارت بر مدل‌های استدلال هوش مصنوعی خود، به نام‌های o3 و o4-mini، راه‌اندازی کرده است. این سیستم به‌منظور شناسایی و جلوگیری از ارائه مشاوره‌هایی که می‌تواند به ایجاد حملات زیستی و شیمیایی کمک کند، طراحی شده است. طبق گزارش ایمنی OpenAI، o3 و o4-mini به‌طور قابل توجهی از لحاظ قابلیت‌ها نسبت به مدل‌های قبلی این شرکت پیشرفته‌تر هستند و این امر می‌تواند خطرات جدیدی را به‌دنبال داشته باشد، به‌ویژه در دست بدافزاران.

بر اساس سنجش‌های داخلی OpenAI، مدل o3 توانایی بالاتری در پاسخ به سؤالات مربوط به ایجاد نوعی از تهدیدات زیستی دارد. به همین دلیل و برای کاهش خطرات دیگر، این شرکت تصمیم به ایجاد سیستم نظارتی جدیدی گرفت که به‌عنوان “ناظر استدلال ایمن” معرفی شده و بر روی o3 و o4-mini اجرا می‌شود. این ناظر به‌طور ویژه برای ارزیابی تطابق محتوای مدل‌ها با سیاست‌های محتوایی OpenAI آموزش دیده است و قادر است درخواست‌های مربوط به خطرات زیستی و شیمیایی را شناسایی کرده و به مدل‌ها دستور دهد تا در این زمینه مشاوره‌ای ارائه ندهند.

به‌منظور ایجاد یک پایه قابل اعتماد، اعضای تیم قرمز OpenAI حدود ۱۰۰۰ ساعت روی شناسایی مکالمات مرتبط با ریسک‌های بایو غیر ایمن در o3 و o4-mini کار کردند. در یک آزمون که OpenAI منطق مسدودسازی ناظر ایمنی خود را شبیه‌سازی کرد، مدل‌ها تقریباً ۹۸.۷٪ از زمان‌ها به درخواست‌های پرخطر پاسخ ندادند. با این‌حال، OpenAI تصدیق می‌کند که این آزمون مواردی را که ممکن است افراد پس از مسدود شدن توسط ناظر، درخواست‌های جدیدی مطرح کنند، مد نظر قرار نداده است و به همین علت این شرکت قصد دارد به‌طور جزئی به نظارت انسانی نیز تکیه کند.

OpenAI تأکید کرده که مدل‌های o3 و o4-mini به هیچ عنوان از مرز “خطر بالا” برای ریسک‌های زیستی عبور نمی‌کنند. با این حال، در مقایسه با مدل‌های o1 و GPT-4، نسخه‌های اولیه o3 و o4-mini در پاسخ به سؤالات مربوط به توسعه سلاح‌های بیولوژیکی کمک بیشتری کرده‌اند. این شرکت به‌طور فعال در حال بررسی این موضوع است که چطور مدل‌هایش می‌توانند کار را برای کاربران بدخواه در زمینه توسعه تهدیدات شیمیایی و زیستی آسان‌تر کنند.

OpenAI به‌طور فزاینده‌ای بر روی سیستم‌های خودکار برای کاهش خطرات ناشی از مدل‌های خود تکیه می‌کند. به‌عنوان مثال، برای جلوگیری از تولید محتوای سوءاستفاده جنسی از کودکان (CSAM) توسط تولیدکننده تصاویر داخلی GPT-4، OpenAI از ناظری مشابه استفاده می‌کند که برای o3 و o4-mini راه‌اندازی شده است. با این حال، برخی پژوهشگران نسبت به اولویت ندادن OpenAI به ایمنی آن‌طور که باید ابراز نگرانی کرده‌اند. یکی از شرکای تیم قرمز این شرکت، Metr، گفته است که زمان کمی برای آزمون o3 در یک معیار مربوط به رفتار فریبنده داشت. به‌طور همزمان، OpenAI تصمیم به عدم انتشار گزارش ایمنی برای مدل GPT-4.1 خود که اوایل این هفته راه‌اندازی شد، گرفته است.

ایجاد تصاویر خلاقانه با هوش مصنوعی

افزایش ایمنی مدل‌های هوش مصنوعی OpenAI با راهکار جدید برای جلوگیری از خطرات بیولوژیکی

دیدگاه‌ خود را بنویسید لغو پاسخ