تحلیل ۷۰۰,۰۰۰ گفتگوی کلود توسط انتروپیک: کشف کد اخلاقی هوش مصنوعی آن

عنوان: تحلیل ارزش‌های هوش مصنوعی «کلاد»؛ نگرانی‌های جدید در امنیت و تطابق رفتاری

شرکت آنتروپیک، پیشرو در زمینه هوش مصنوعی و تأسیس‌شده توسط گروهی از مهندسان سابق اوپن‌ای‌آی، به‌تازگی نتایج یک تحلیل بی‌سابقه را منتشر کرده که در آن نحوه بیان ارزش‌ها توسط دستیار هوش مصنوعی این شرکت، «کلاد»، در گفتگوهای واقعی با کاربران مورد بررسی قرار گرفته است. این تحقیق که امروز منتشر شد، نشان‌دهنده انطباقی امیدوارکننده با اهداف شرکت و همچنین موارد نگران‌کننده‌ای است که می‌تواند به شناسایی نقاط ضعف در تدابیر ایمنی هوش مصنوعی کمک کند.

در این مطالعه که شامل ۷۰۰ هزار گفت‌وگوی ناشناس است، مشخص شد که کلاد به‌طور عمده به چهارچوب “مفید، صادق، بی‌ضرر” شرکت پایبند است و در عین حال ارزش‌های خود را در زمینه‌های مختلف، از مشاوره روابط گرفته تا تحلیل تاریخی، تطبیق می‌دهد. این اقدام یکی از بلندپروازانه‌ترین تلاش‌ها برای ارزیابی تجربی رفتار یک سیستم هوش مصنوعی در دنیای واقعی به شمار می‌رود.

سفرن هوانگ، یکی از اعضای تیم تأثیرات اجتماعی آنتروپیک که در این مطالعه مشارکت داشته است، در مصاحبه‌ای گفت: “امید ما این است که این تحقیق دیگر آزمایشگاه‌های هوش مصنوعی را به انجام تحقیقات مشابه در مورد ارزش‌های مدل‌هایشان تشویق کند.”

تیم تحقیقاتی یک روش ارزیابی نوین را توسعه داده تا به‌طور سیستماتیک ارزش‌های ابراز شده در گفتگوهای واقعی کلاد را دسته‌بندی کند. آن‌ها پس از فیلتر محتوای ذهنی، به تحلیل بیش از ۳۰۸ هزار تعامل پرداخته و به نوعی پایگاه‌داده‌ای از ارزش‌های هوش مصنوعی ایجاد کردند. این پایگاه‌داده شامل پنج دسته‌ اصلی ارزش‌ها است: عملی، شناختی، اجتماعی، حمایتی و شخصی. در سطح جزئی‌تر، سیستم به شناسایی ۳۳۰۷ ارزش منحصر به فرد پرداخته است که از فضیلت‌های روزمره مانند حرفه‌ای‌گری تا مفاهیم اخلاقی پیچیده مانند پلورالیسم اخلاقی را شامل می‌شود.

این تحقیق در زمانی حساس برای آنتروپیک منتشر شده که این شرکت به‌تازگی “کلاد مکس” را معرفی کرده است، یک سطح اشتراک ماهانه ۲۰۰ دلاری که به منظور رقابت با محصولات مشابه اوپن‌ای‌آی طراحی شده است.

این مطالعه نشان داد که کلاد به‌طور کلی به اهداف اجتماعی آنتروپیک پایبند است و ارزش‌هایی نظیر “توانمندسازی کاربر”، “تواضع شناختی” و “سلامت روانی” را در تعاملات مختلف در نظر می‌گیرد. با این حال، محققان همچنین موارد نگران‌کننده‌ای را شناسایی کردند که در آن‌ها کلاد ارزش‌هایی را بیان کرده که با آموزش‌های آن مغایرت دارد.

ایجاد شفافیت در رفتارهای هوش مصنوعی و ارزیابی مداوم ارزش‌ها از جمله نقاط قوت این تحقیق برای توسعه مسئولانه هوش مصنوعی به شمار می‌آید. آنتروپیک مجموعه داده‌های ارزش‌ها را به‌صورت عمومی منتشر کرده تا تحقیقات بیشتری را تشویق کند و همچنین در این راستا به شفافیت به‌عنوان یک مزیت رقابتی در برابر رقبای خود، از جمله اوپن‌ای‌آی، پرداخته است.

این مطالعه می‌تواند راهگشای مهمی برای بینش دقیق‌تر در مورد ارزش‌های هوش مصنوعی و چگونگی انطباق آن‌ها با ارزش‌های انسانی باشد.

تبدیل متن‌های فارسی به صوت

تحلیل ۷۰۰,۰۰۰ گفتگوی کلود توسط انتروپیک: کشف کد اخلاقی هوش مصنوعی آن

دیدگاه‌ خود را بنویسید لغو پاسخ