مایکروسافت پروژهای تحقیقاتی برای تحلیل تأثیر مجموعه دادههای آموزشی در تولید محتوا توسط مدلهای هوش مصنوعی آغاز کرده است
مایکروسافت پروژهای تحقیقاتی را آغاز کرده که هدف آن بررسی تأثیر دادههای خاصی مانند تصاویر، متن و رسانههای دیگر در خروجی مدلهای هوش مصنوعی مولد است. این خبر براساس یک آگهی استخدام از ماه دسامبر منتشر شده است که اخیراً در لینکدین بازنشر شده است. در این آگهی، که به دنبال جذب یک کارآموز تحقیقاتی است، آمده که پروژه مذکور قصد دارد نشان دهد چگونه میتوان مدلهای هوش مصنوعی را به گونهای آموزش داد که تأثیر دادههای خاص – مانند عکسها و کتابها – بر خروجی آنها بهصورت مؤثر و قابل استفاده ارزیابی شود.
بر اساس توضیحات این آگهی، معماریهای شبکههای عصبی فعلی فاقد شفافیت در ارائه منابع تولید محتوا هستند و دلایل قابل توجهی برای تغییر این وضعیت وجود دارد. یکی از این دلایل، ایجاد انگیزه، شناسایی و حتی پرداخت پاداش به افرادی است که دادههای ارزشمند و منحصر به فردی را برای ساخت مدلهای هوش مصنوعی آینده ارائه میدهند. این موضوع میتواند به توسعة مدلهای جدید و ارزشمند در آینده کمک کند.
چالشهای حقوق مالکیت فکری در مقابل مدلهای هوش مصنوعی
هوش مصنوعی و ابزارهای مولد محتوا همچون تصویر، متن، ویدئو و موسیقی در مرکز بسیاری از شکایات حقوق مالکیت فکری قرار دارند. شرکتهای فعال در این حوزه اغلب مدلهایشان را با دادههای عمومی موجود در وب آموزش میدهند که برخی از این دادهها تحت قانون کپیرایت قرار دارند. این شرکتها معمولا استدلال میکنند که استفاده از دادههای عمومی طبق «اصل استفاده عادلانه» در قانون امکانپذیر است، اما نویسندگان، هنرمندان و تولیدکنندگان محتوا با این موضوع مخالفت میکنند.
مایکروسافت نیز از این چالشها در امان نبوده و حداقل با دو دعوی قضایی مواجه شده است. به عنوان نمونه، روزنامه نیویورک تایمز سال گذشته علیه مایکروسافت و همکار آن، OpenAI، شکایت کرد و آنها را به نقض قانون کپیرایت از طریق استفاده از مقالات این روزنامه برای آموزش مدلهای هوش مصنوعی متهم کرد. همچنین، گروهی از توسعهدهندگان نرمافزار ادعا کردهاند که ابزار GitHub Copilot، دستیار کدنویسی هوش مصنوعی مایکروسافت، بهصورتی غیرقانونی بر اساس آثار محافظتشدهی آنها آموزش دیده است.
تمرکز مایکروسافت بر «منشأ زمان آموزش» و مفهوم «کرامت دادهها»
پروژه جدید مایکروسافت که «منشأ زمان آموزش» (Training-time Provenance) نامیده شده، بهطور کامل بر این موضوع تمرکز دارد و جارن لانیه، دانشمند تکنولوژی برجسته گروه تحقیقاتی مایکروسافت، در این پروژه حضور دارد. لانیه در مقالهای که در آوریل ۲۰۲۳ در نشریه نیویورکر منتشر شد، مفهوم «کرامت دادهها» را مطرح کرد. به گفته او، این مفهوم به ارتباط میان “دادههای دیجیتال” و “افرادی که خالق آنها بودهاند” اشاره دارد.
لانیه توضیح داده است که با استفاده از رویکرد کرامت دادهها، میتوان تأثیرگذارترین مشارکتکنندگان در تولید محتوا توسط مدلهای هوش مصنوعی را شناسایی کرد و از آنها قدردانی کرد. بهعنوان مثال، اگر از یک مدل هوش مصنوعی بخواهید فیلمی انیمیشنی براساس جهان نقاشیهای روغنی و ماجراجویی گربههای سخنگو ایجاد کند، افرادی مانند نقاشان کلیدی، هنرمندان پرتره گربهها و نویسندگان میتوانند بهعنوان تأثیرگذاران برجسته در خلق این اثر شناسایی شده و تقدیر شوند، و حتی شاید برای مشارکت خود دستمزد دریافت کنند.
تلاشهای مشابه در صنعت هوش مصنوعی
مایکروسافت تنها شرکتی نیست که بر شناسایی تأثیر دادهها تمرکز دارد. شرکتهای دیگری مانند Bria که اخیراً ۴۰ میلیون دلار سرمایه جذب کرده، روشهایی برای پرداخت به مالکان داده براساس تأثیرگذاری آنها ارائه دادهاند. همچنین پلتفرمهایی مانند Adobe و Shutterstock به مشارکتکنندگان دادههایشان مبالغی بهعنوان حقالزحمه پرداخت میکنند، هرچند شفافیت این فرآیندها همچنان محدود است.
از سوی دیگر، برخی از آزمایشگاههای هوش مصنوعی همچنان به ارائه روشهایی برای انتخاب خروج از فرایند آموزش برای مالکین دادهها پرداختهاند، اما این فرآیندها معمولاً پیچیده هستند و تنها به مدلهای جدید اعمال میشوند، نه مدلهایی که قبلاً آموزش دیدهاند.
آینده پروژه مایکروسافت
با وجود تمام تلاشهای مایکروسافت، احتمال میرود این پروژه تنها به اثبات مفهوم محدود شود. نمونه مشابهی از این نوع تلاشها در گذشته توسط OpenAI نیز مطرح شد که قصد داشت ابزاری برای تنظیم نحوه استفاده از دادههای کاربران در آموزش مدلها ارائه دهد، اما این ابزار هنوز به مرحله اجرایی نرسیده است. در نهایت، برخی معتقدند مایکروسافت تلاش دارد از تبعات قانونی یا تنظیمگری که ممکن است به کسبوکار هوش مصنوعی آن آسیب برساند جلوگیری کند.
با این حال، اقدام مایکروسافت برای پیگیری این پروژه در شرایطی که سایر آزمایشگاههای هوش مصنوعی همچنان به بهانه «استفاده عادلانه» به شکایات حقوق مالکیت فکری پاسخ میدهند، قابل توجه است. برخی از شرکتهای بزرگ مانند گوگل و OpenAI حتی سیاستهایی را برای تضعیف قوانین کپیرایت در ارتباط با هوش مصنوعی در آمریکا پیشنهاد دادهاند. OpenAI بهطور خاص خواستار قانونیسازی استفاده عادلانه برای آموزش مدلها شده که به توسعهدهندگان امکان آزادی بیشتر در استفاده از دادهها را میدهد.
مایکروسافت تاکنون به درخواستها برای اظهار نظر در این خصوص پاسخ نداده است.