یک مطالعه جدید به انکار ادعاهایی کمک کرده که نشان میدهد OpenAI برخی از مدلهای هوش مصنوعی خود را بر مبنای محتوای دارای حقوق کپیرایت آموزش داده است. OpenAI با پروندههای قضایی نویسندگان، برنامهنویسان و سایر صاحبان حقوق مواجه است که آن را به استفاده بدون مجوز از آثارشان از جمله کتابها و کدها برای توسعه مدلهایش متهم کردهاند. با اینکه OpenAI مدتهاست دفاعی مبتنی بر “استفاده عادلانه” را مطرح کرده، مدعیان این پروندهها معتقدند که قوانین کپیرایت ایالات متحده برای دادههای آموزشی مستثنی قائل نشده است.
این مطالعه که بهدست پژوهشگران دانشگاههای واشنگتن، کپنهاگ و استنفورد انجام شده، روشی جدید برای شناسایی دادههای آموزشی “به یاد سپرده شده” توسط مدلهایی که از طریق API ارائه میشوند، مانند OpenAI، پیشنهاد میکند. مدلهای هوش مصنوعی ابزارهای پیشبینی هستند که با آموزش بر روی دادههای بسیار، الگوها را یاد میگیرند و از اینرو قادر به تولید مقالات، تصاویر و موارد دیگر میشوند. اگرچه بیشتر بازدههای مدلها نسخهی کلمهبهکلمهای از دادههای آموزشی نیستند، اما بهواسطهی روش “یادگیری”، برخی از آنها ناگزیر مشابه دادههای آموزشیاند. مدلهای تصویر معمولاً عکسهای فیلمها را بازتولید میکنند که در آموزش بر روی آنها قرار گرفتهاند، در حالی که مدلهای زبان گاه بیاختیار مقالههای خبری را کپیبرداری میکنند.
روش مطالعاتی معرفی شده بر کلمات “تعجبآور” یا “غیرمعمول” تکیه دارد؛ به عبارتی، کلماتی که در متنهای بزرگ غیرمرسوم هستند. برای مثال، کلمه “رادار” در جمله “جک و من با رادار که در حال زمزمه بود نشسته بودیم” بهعنوان کلمهای غیرمعمول در نظر گرفته میشود زیرا احتمال وقوع آن کمتر از کلماتی مثل “موتور” یا “رادیو” در این جمله است. پژوهشگران چندین مدل OpenAI از جمله GPT-4 و GPT-3.5 را برای نشانههای حافظهی آموزشی بررسی کردند. آنها با حذف کلمات غیرمعمول از بخشهایی از کتابهای داستانی و قطعات روزنامه نیویورک تایمز و آزمودن مدلها در تلاش برای “حدس زدن” کلمات پنهان شده، به این نتیجه رسیدند که اگر مدلها به درستی حدس بزنند، به احتمال زیاد این بخش را در طول آموزش به یاد سپردهاند.
نتایج آزمونها نشان داد که GPT-4 بخشهایی از کتابهای داستانی محبوب، از جمله کتابهایی در یک مجموعه حاوی نمونههای کتابهای الکترونیکی دارای حقوق کپیرایت به نام BookMIA را به خاطر سپرده است. نتایج همچنین پیشنهاد میدهند که مدل بخشهایی از مقالات نیویورک تایمز را هم به یاد آورده، البته با نرخ پایینتر. ابیلاشا راویکاندر، دانشجوی دکتری در دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به TechCrunch اعلام کرد که این یافتهها از “دادههای پرمناقشهای” پرده برداشته است که ممکن است مدلها بر آنها آموزش یافته باشند.
OpenAI مدتهاست که برای کمتر شدن محدودیتها در توسعه مدلها با استفاده از دادههای دارای کپیرایت تلاش کرده است. این شرکت برخی از قراردادهای محتوایی را برقرار کرده و مکانیزمهای انتخابناپذیری ارائه میدهد که به مالکین حقوق اجازه میدهد محتوایی را که نمیخواهند برای اهداف آموزشی استفاده شود، اعلام کنند. علاوه بر این، OpenAI با چندین دولت در مورد تصویب قوانین “استفاده عادلانه” برای روشهای آموزش هوش مصنوعی مشورت کرده است.