عنوان: تحلیل ارزشهای هوش مصنوعی «کلاد»؛ نگرانیهای جدید در امنیت و تطابق رفتاری
شرکت آنتروپیک، پیشرو در زمینه هوش مصنوعی و تأسیسشده توسط گروهی از مهندسان سابق اوپنایآی، بهتازگی نتایج یک تحلیل بیسابقه را منتشر کرده که در آن نحوه بیان ارزشها توسط دستیار هوش مصنوعی این شرکت، «کلاد»، در گفتگوهای واقعی با کاربران مورد بررسی قرار گرفته است. این تحقیق که امروز منتشر شد، نشاندهنده انطباقی امیدوارکننده با اهداف شرکت و همچنین موارد نگرانکنندهای است که میتواند به شناسایی نقاط ضعف در تدابیر ایمنی هوش مصنوعی کمک کند.
در این مطالعه که شامل ۷۰۰ هزار گفتوگوی ناشناس است، مشخص شد که کلاد بهطور عمده به چهارچوب “مفید، صادق، بیضرر” شرکت پایبند است و در عین حال ارزشهای خود را در زمینههای مختلف، از مشاوره روابط گرفته تا تحلیل تاریخی، تطبیق میدهد. این اقدام یکی از بلندپروازانهترین تلاشها برای ارزیابی تجربی رفتار یک سیستم هوش مصنوعی در دنیای واقعی به شمار میرود.
سفرن هوانگ، یکی از اعضای تیم تأثیرات اجتماعی آنتروپیک که در این مطالعه مشارکت داشته است، در مصاحبهای گفت: “امید ما این است که این تحقیق دیگر آزمایشگاههای هوش مصنوعی را به انجام تحقیقات مشابه در مورد ارزشهای مدلهایشان تشویق کند.”
تیم تحقیقاتی یک روش ارزیابی نوین را توسعه داده تا بهطور سیستماتیک ارزشهای ابراز شده در گفتگوهای واقعی کلاد را دستهبندی کند. آنها پس از فیلتر محتوای ذهنی، به تحلیل بیش از ۳۰۸ هزار تعامل پرداخته و به نوعی پایگاهدادهای از ارزشهای هوش مصنوعی ایجاد کردند. این پایگاهداده شامل پنج دسته اصلی ارزشها است: عملی، شناختی، اجتماعی، حمایتی و شخصی. در سطح جزئیتر، سیستم به شناسایی ۳۳۰۷ ارزش منحصر به فرد پرداخته است که از فضیلتهای روزمره مانند حرفهایگری تا مفاهیم اخلاقی پیچیده مانند پلورالیسم اخلاقی را شامل میشود.
این تحقیق در زمانی حساس برای آنتروپیک منتشر شده که این شرکت بهتازگی “کلاد مکس” را معرفی کرده است، یک سطح اشتراک ماهانه ۲۰۰ دلاری که به منظور رقابت با محصولات مشابه اوپنایآی طراحی شده است.
این مطالعه نشان داد که کلاد بهطور کلی به اهداف اجتماعی آنتروپیک پایبند است و ارزشهایی نظیر “توانمندسازی کاربر”، “تواضع شناختی” و “سلامت روانی” را در تعاملات مختلف در نظر میگیرد. با این حال، محققان همچنین موارد نگرانکنندهای را شناسایی کردند که در آنها کلاد ارزشهایی را بیان کرده که با آموزشهای آن مغایرت دارد.
ایجاد شفافیت در رفتارهای هوش مصنوعی و ارزیابی مداوم ارزشها از جمله نقاط قوت این تحقیق برای توسعه مسئولانه هوش مصنوعی به شمار میآید. آنتروپیک مجموعه دادههای ارزشها را بهصورت عمومی منتشر کرده تا تحقیقات بیشتری را تشویق کند و همچنین در این راستا به شفافیت بهعنوان یک مزیت رقابتی در برابر رقبای خود، از جمله اوپنایآی، پرداخته است.
این مطالعه میتواند راهگشای مهمی برای بینش دقیقتر در مورد ارزشهای هوش مصنوعی و چگونگی انطباق آنها با ارزشهای انسانی باشد.