مایکروسافت به دنبال اعتبارسنجی برای مشارکت‌کنندگان داده‌های آموزشی هوش مصنوعی است

مایکروسافت پروژه‌ای تحقیقاتی برای تحلیل تأثیر مجموعه داده‌های آموزشی در تولید محتوا توسط مدل‌های هوش مصنوعی آغاز کرده است

مایکروسافت پروژه‌ای تحقیقاتی را آغاز کرده که هدف آن بررسی تأثیر داده‌های خاصی مانند تصاویر، متن و رسانه‌های دیگر در خروجی مدل‌های هوش مصنوعی مولد است. این خبر براساس یک آگهی استخدام از ماه دسامبر منتشر شده است که اخیراً در لینکدین بازنشر شده است. در این آگهی، که به دنبال جذب یک کارآموز تحقیقاتی است، آمده که پروژه مذکور قصد دارد نشان دهد چگونه می‌توان مدل‌های هوش مصنوعی را به گونه‌ای آموزش داد که تأثیر داده‌های خاص – مانند عکس‌ها و کتاب‌ها – بر خروجی آن‌ها به‌صورت مؤثر و قابل استفاده ارزیابی شود.

بر اساس توضیحات این آگهی، معماری‌های شبکه‌های عصبی فعلی فاقد شفافیت در ارائه منابع تولید محتوا هستند و دلایل قابل توجهی برای تغییر این وضعیت وجود دارد. یکی از این دلایل، ایجاد انگیزه، شناسایی و حتی پرداخت پاداش به افرادی است که داده‌های ارزشمند و منحصر به فردی را برای ساخت مدل‌های هوش مصنوعی آینده ارائه می‌دهند. این موضوع می‌تواند به توسعة مدل‌های جدید و ارزشمند در آینده کمک کند.

چالش‌های حقوق مالکیت فکری در مقابل مدل‌های هوش مصنوعی

هوش مصنوعی و ابزارهای مولد محتوا همچون تصویر، متن، ویدئو و موسیقی در مرکز بسیاری از شکایات حقوق مالکیت فکری قرار دارند. شرکت‌های فعال در این حوزه اغلب مدل‌هایشان را با داده‌های عمومی موجود در وب آموزش می‌دهند که برخی از این داده‌ها تحت قانون کپی‌رایت قرار دارند. این شرکت‌ها معمولا استدلال می‌کنند که استفاده از داده‌های عمومی طبق «اصل استفاده عادلانه» در قانون امکان‌پذیر است، اما نویسندگان، هنرمندان و تولیدکنندگان محتوا با این موضوع مخالفت می‌کنند.

مایکروسافت نیز از این چالش‌ها در امان نبوده و حداقل با دو دعوی قضایی مواجه شده است. به عنوان نمونه، روزنامه نیویورک تایمز سال گذشته علیه مایکروسافت و همکار آن، OpenAI، شکایت کرد و آن‌ها را به نقض قانون کپی‌رایت از طریق استفاده از مقالات این روزنامه برای آموزش مدل‌های هوش مصنوعی متهم کرد. همچنین، گروهی از توسعه‌دهندگان نرم‌افزار ادعا کرده‌اند که ابزار GitHub Copilot، دستیار کدنویسی هوش مصنوعی مایکروسافت، به‌صورتی غیرقانونی بر اساس آثار محافظت‌شده‌ی آن‌ها آموزش دیده است.

تمرکز مایکروسافت بر «منشأ زمان آموزش» و مفهوم «کرامت داده‌ها»

پروژه جدید مایکروسافت که «منشأ زمان آموزش» (Training-time Provenance) نامیده شده، به‌طور کامل بر این موضوع تمرکز دارد و جارن لانیه، دانشمند تکنولوژی برجسته گروه تحقیقاتی مایکروسافت، در این پروژه حضور دارد. لانیه در مقاله‌ای که در آوریل ۲۰۲۳ در نشریه نیویورکر منتشر شد، مفهوم «کرامت داده‌ها» را مطرح کرد. به گفته او، این مفهوم به ارتباط میان “داده‌های دیجیتال” و “افرادی که خالق آن‌ها بوده‌اند” اشاره دارد.

لانیه توضیح داده است که با استفاده از رویکرد کرامت داده‌ها، می‌توان تأثیرگذارترین مشارکت‌کنندگان در تولید محتوا توسط مدل‌های هوش مصنوعی را شناسایی کرد و از آن‌ها قدردانی کرد. به‌عنوان مثال، اگر از یک مدل هوش مصنوعی بخواهید فیلمی انیمیشنی براساس جهان نقاشی‌های روغنی و ماجراجویی گربه‌های سخنگو ایجاد کند، افرادی مانند نقاشان کلیدی، هنرمندان پرتره گربه‌ها و نویسندگان می‌توانند به‌عنوان تأثیرگذاران برجسته در خلق این اثر شناسایی شده و تقدیر شوند، و حتی شاید برای مشارکت خود دستمزد دریافت کنند.

تلاش‌های مشابه در صنعت هوش مصنوعی

مایکروسافت تنها شرکتی نیست که بر شناسایی تأثیر داده‌ها تمرکز دارد. شرکت‌های دیگری مانند Bria که اخیراً ۴۰ میلیون دلار سرمایه جذب کرده، روش‌هایی برای پرداخت به مالکان داده براساس تأثیرگذاری آن‌ها ارائه داده‌اند. همچنین پلتفرم‌هایی مانند Adobe و Shutterstock به مشارکت‌کنندگان داده‌هایشان مبالغی به‌عنوان حق‌الزحمه پرداخت می‌کنند، هرچند شفافیت این فرآیندها همچنان محدود است.

از سوی دیگر، برخی از آزمایشگاه‌های هوش مصنوعی همچنان به ارائه روش‌هایی برای انتخاب خروج از فرایند آموزش برای مالکین داده‌ها پرداخته‌اند، اما این فرآیندها معمولاً پیچیده هستند و تنها به مدل‌های جدید اعمال می‌شوند، نه مدل‌هایی که قبلاً آموزش دیده‌اند.

آینده پروژه مایکروسافت

با وجود تمام تلاش‌های مایکروسافت، احتمال می‌رود این پروژه تنها به اثبات مفهوم محدود شود. نمونه مشابهی از این نوع تلاش‌ها در گذشته توسط OpenAI نیز مطرح شد که قصد داشت ابزاری برای تنظیم نحوه استفاده از داده‌های کاربران در آموزش مدل‌ها ارائه دهد، اما این ابزار هنوز به مرحله اجرایی نرسیده است. در نهایت، برخی معتقدند مایکروسافت تلاش دارد از تبعات قانونی یا تنظیم‌گری که ممکن است به کسب‌وکار هوش مصنوعی آن آسیب برساند جلوگیری کند.

با این حال، اقدام مایکروسافت برای پیگیری این پروژه در شرایطی که سایر آزمایشگاه‌های هوش مصنوعی همچنان به بهانه «استفاده عادلانه» به شکایات حقوق مالکیت فکری پاسخ می‌دهند، قابل توجه است. برخی از شرکت‌های بزرگ مانند گوگل و OpenAI حتی سیاست‌هایی را برای تضعیف قوانین کپی‌رایت در ارتباط با هوش مصنوعی در آمریکا پیشنهاد داده‌اند. OpenAI به‌طور خاص خواستار قانونی‌سازی استفاده عادلانه برای آموزش مدل‌ها شده که به توسعه‌دهندگان امکان آزادی بیشتر در استفاده از داده‌ها را می‌دهد.

مایکروسافت تاکنون به درخواست‌ها برای اظهار نظر در این خصوص پاسخ نداده است.

تولید تصویر با هوش مصنوعی

مایکروسافت به دنبال اعتبارسنجی برای مشارکت‌کنندگان داده‌های آموزشی هوش مصنوعی است

چالش‌های حقوق مالکیت فکری در مقابل مدل‌های هوش مصنوعی

تمرکز مایکروسافت بر «منشأ زمان آموزش» و مفهوم «کرامت داده‌ها»

تلاش‌های مشابه در صنعت هوش مصنوعی

آینده پروژه مایکروسافت

دیدگاه‌ خود را بنویسید لغو پاسخ