در ماههای اخیر، شرکت OpenAI با اتهامات متعددی مبنی بر استفاده از محتوای دارای حق تکثیر برای آموزش مدلهای هوشمند مصنوعی خود بدون کسب اجازه مواجه شده است. اکنون، یک مقاله جدید از سوی سازمان دیدهبان هوش مصنوعی به نام AI Disclosures Project، ادعای جدیتری را مطرح میکند: این که OpenAI به طور فزایندهای به کتابهای غیرعمومی که مجوزی برای استفاده از آنها نداشت، برای آموزش مدلهای پیشرفته خود متکی بوده است.
مدلهای هوش مصنوعی در واقع موتورهای پیشبینی پیچیدهای هستند که بر اساس مقادیر زیادی داده، مانند کتابها، فیلمها و برنامههای تلویزیونی آموزش داده میشوند و الگوها و روشهای جدیدی برای استخراج از دادهها میآموزند. زمانی که یک مدل “مقالهای” در باره تراژدیهای یونان مینویسد یا تصاویری به سبک انیمههای جیبیلی خلق میکند، تنها از دانش وسیع خود برای تقریبسازی استفاده میکند و به هیچ محتوای جدیدی نمیرسد.
مقاله مذکور که توسط پروژه AI Disclosures منتشر شده و به بررسی شیوههای آموزشی OpenAI پرداخته است، نتیجهگیری میکند که این شرکت مدل GPT-4o خود را بر اساس کتابهای محافظتشده با حقوق و مجوز استفاده نشده از انتشارات O’Reilly آموزش داده است. این نتیجهگیری از طریق روشی به نام DE-COP — که در سال ۲۰۲۴ معرفی شد — به دست آمده است.
بر اساس نتایج حاصل از این تحقیق، مدل GPT-4o تشخیص بیشتری نسبت به محتوای کتابهای غیرعمومی O’Reilly داشته است، در مقایسه با مدلهای قبلی OpenAI مانند GPT-3.5 Turbo. اگرچه نویسندگان مقاله اذعان دارند که روش آزمایشی آنها نقصهایی دارد و شاید OpenAI دادههای مربوطه را از کاربران دریافت کرده باشد، اما این نتایج همچنان نگرانیهایی را درباره دسترسی و استفاده از دادههای محرمانه و حقوقی برجای میگذارد.
لازم به ذکر است که OpenAI در پی یافتن دادههای آموزشی با کیفیت بالاتر است و برای این منظور حتی خبرنگارانی را برای بهبود خروجی مدلهایش استخدام کرده است. این روندی است که در سراسر صنعت هوش مصنوعی مشاهده میشود: شرکتها به دنبال جذب کارشناسان در حوزههای مختلف علمی هستند تا دانش آنها را به هوش مصنوعی منتقل کنند.
با وجود این تلاشها، OpenAI همچنان با دعویهای حقوقی مربوط به شیوههای استفاده از دادههای آموزشی خود مواجه است و مقاله O’Reilly فشار بیشتری را بر این شرکت وارد کرده است. گزارشی مبنی بر عدم پاسخ OpenAI به درخواستهای توضیح در این خصوص نیز منتشر شده است. این موضوع باعث افزایش توجه به نحوه برخورد شرکت با قوانین حق مولف و دادههای آموزشی در محیطهای قانونی شده است.