مطالعه جدید: مدل‌های OpenAI محتوای دارای حق نشر را به خاطر سپرده‌اند

یک مطالعه جدید به انکار ادعاهایی کمک کرده که نشان می‌دهد OpenAI برخی از مدل‌های هوش مصنوعی خود را بر مبنای محتوای دارای حقوق کپی‌رایت آموزش داده است. OpenAI با پرونده‌های قضایی نویسندگان، برنامه‌نویسان و سایر صاحبان حقوق مواجه است که آن را به‌ استفاده بدون مجوز از آثارشان از جمله کتاب‌ها و کدها برای توسعه مدل‌هایش متهم کرده‌اند. با اینکه OpenAI مدت‌هاست دفاعی مبتنی بر “استفاده عادلانه” را مطرح کرده، مدعیان این پرونده‌ها معتقدند که قوانین کپی‌رایت ایالات متحده برای داده‌های آموزشی مستثنی قائل نشده است.

این مطالعه که به‌دست پژوهشگران دانشگاه‌های واشنگتن، کپنهاگ و استنفورد انجام شده، روشی جدید برای شناسایی داده‌های آموزشی “به یاد سپرده شده” توسط مدل‌هایی که از طریق API ارائه می‌شوند، مانند OpenAI، پیشنهاد می‌کند. مدل‌های هوش مصنوعی ابزارهای پیش‌بینی هستند که با آموزش بر روی داده‌های بسیار، الگوها را یاد می‌گیرند و از این‌رو قادر به تولید مقالات، تصاویر و موارد دیگر می‌شوند. اگرچه بیشتر بازده‌های مدل‌ها نسخه‌ی کلمه‌به‌کلمه‌ای از داده‌های آموزشی نیستند، اما به‌واسطه‌ی روش “یادگیری”، برخی از آنها ناگزیر مشابه داده‌های آموزشی‌اند. مدل‌های تصویر معمولاً عکس‌های فیلم‌ها را بازتولید می‌کنند که در آموزش بر روی آنها قرار گرفته‌اند، در حالی که مدل‌های زبان گاه بی‌اختیار مقاله‌های خبری را کپی‌برداری می‌کنند.

روش مطالعاتی معرفی شده بر کلمات “تعجب‌آور” یا “غیرمعمول” تکیه دارد؛ به عبارتی، کلماتی که در متن‌های بزرگ غیرمرسوم هستند. برای مثال، کلمه “رادار” در جمله “جک و من با رادار که در حال زمزمه بود نشسته بودیم” به‌عنوان کلمه‌ای غیرمعمول در نظر گرفته می‌شود زیرا احتمال وقوع آن کمتر از کلماتی مثل “موتور” یا “رادیو” در این جمله است. پژوهشگران چندین مدل OpenAI از جمله GPT-4 و GPT-3.5 را برای نشانه‌های حافظه‌ی آموزشی بررسی کردند. آنها با حذف کلمات غیرمعمول از بخش‌هایی از کتاب‌های داستانی و قطعات روزنامه نیویورک تایمز و آزمودن مدل‌ها در تلاش برای “حدس زدن” کلمات پنهان شده، به این نتیجه رسیدند که اگر مدل‌ها به درستی حدس بزنند، به احتمال زیاد این بخش را در طول آموزش به یاد سپرده‌اند.

نتایج آزمون‌ها نشان داد که GPT-4 بخش‌هایی از کتاب‌های داستانی محبوب، از جمله کتاب‌هایی در یک مجموعه حاوی نمونه‌های کتاب‌های الکترونیکی دارای حقوق کپی‌رایت به نام BookMIA را به خاطر سپرده است. نتایج همچنین پیشنهاد می‌دهند که مدل بخش‌هایی از مقالات نیویورک تایمز را هم به یاد آورده، البته با نرخ پایین‌تر. ابیلاشا راویکاندر، دانشجوی دکتری در دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به TechCrunch اعلام کرد که این یافته‌ها از “داده‌های پرمناقشه‌ای” پرده برداشته است که ممکن است مدل‌ها بر آنها آموزش یافته باشند.

OpenAI مدت‌هاست که برای کمتر شدن محدودیت‌ها در توسعه مدل‌ها با استفاده از داده‌های دارای کپی‌رایت تلاش کرده است. این شرکت برخی از قراردادهای محتوایی را برقرار کرده و مکانیزم‌های انتخاب‌ناپذیری ارائه می‌دهد که به مالکین حقوق اجازه می‌دهد محتوایی را که نمی‌خواهند برای اهداف آموزشی استفاده شود، اعلام کنند. علاوه بر این، OpenAI با چندین دولت در مورد تصویب قوانین “استفاده عادلانه” برای روش‌های آموزش هوش مصنوعی مشورت کرده است.

متن خود را با هوش مصنوعی به تصویر تبدیل کنید

مطالعه جدید: مدل‌های OpenAI محتوای دارای حق نشر را به خاطر سپرده‌اند

دیدگاه‌ خود را بنویسید لغو پاسخ