پژوهشگران: مدل‌های هوش مصنوعی OpenAI با کتاب‌های پولی O'Reilly آموزش دیده‌اند

در ماه‌های اخیر، شرکت OpenAI با اتهامات متعددی مبنی بر استفاده از محتوای دارای حق تکثیر برای آموزش مدل‌های هوشمند مصنوعی خود بدون کسب اجازه مواجه شده است. اکنون، یک مقاله جدید از سوی سازمان دیده‌بان هوش مصنوعی به نام AI Disclosures Project، ادعای جدی‌تری را مطرح می‌کند: این که OpenAI به طور فزاینده‌ای به کتاب‌های غیرعمومی که مجوزی برای استفاده از آن‌ها نداشت، برای آموزش مدل‌های پیشرفته خود متکی بوده است.

مدل‌های هوش مصنوعی در واقع موتورهای پیش‌بینی پیچیده‌ای هستند که بر اساس مقادیر زیادی داده، مانند کتاب‌ها، فیلم‌ها و برنامه‌های تلویزیونی آموزش داده می‌شوند و الگوها و روش‌های جدیدی برای استخراج از داده‌ها می‌آموزند. زمانی که یک مدل “مقاله‌ای” در باره تراژدی‌های یونان می‌نویسد یا تصاویری به سبک انیمه‌های جیبیلی خلق می‌کند، تنها از دانش وسیع خود برای تقریب‌سازی استفاده می‌کند و به هیچ محتوای جدیدی نمی‌رسد.

مقاله مذکور که توسط پروژه AI Disclosures منتشر شده و به بررسی شیوه‌های آموزشی OpenAI پرداخته است، نتیجه‌گیری می‌کند که این شرکت مدل GPT-4o خود را بر اساس کتاب‌های محافظت‌شده با حقوق و مجوز استفاده نشده از انتشارات O’Reilly آموزش داده است. این نتیجه‌گیری از طریق روشی به نام DE-COP — که در سال ۲۰۲۴ معرفی شد — به دست آمده است.

بر اساس نتایج حاصل از این تحقیق، مدل GPT-4o تشخیص بیشتری نسبت به محتوای کتاب‌های غیرعمومی O’Reilly داشته است، در مقایسه با مدل‌های قبلی OpenAI مانند GPT-3.5 Turbo. اگرچه نویسندگان مقاله اذعان دارند که روش آزمایشی آن‌ها نقص‌هایی دارد و شاید OpenAI داده‌های مربوطه را از کاربران دریافت کرده باشد، اما این نتایج همچنان نگرانی‌هایی را درباره دسترسی و استفاده از داده‌های محرمانه و حقوقی برجای می‌گذارد.

لازم به ذکر است که OpenAI در پی یافتن داده‌های آموزشی با کیفیت بالاتر است و برای این منظور حتی خبرنگارانی را برای بهبود خروجی مدل‌هایش استخدام کرده است. این روندی است که در سراسر صنعت هوش مصنوعی مشاهده می‌شود: شرکت‌ها به دنبال جذب کارشناسان در حوزه‌های مختلف علمی هستند تا دانش آن‌ها را به هوش مصنوعی منتقل کنند.

با وجود این تلاش‌ها، OpenAI همچنان با دعوی‌های حقوقی مربوط به شیوه‌های استفاده از داده‌های آموزشی خود مواجه است و مقاله O’Reilly فشار بیشتری را بر این شرکت وارد کرده است. گزارشی مبنی بر عدم پاسخ OpenAI به درخواست‌های توضیح در این خصوص نیز منتشر شده است. این موضوع باعث افزایش توجه به نحوه برخورد شرکت با قوانین حق مولف و داده‌های آموزشی در محیط‌های قانونی شده است.

دستیار هوش مصنوعی

پژوهشگران: مدل‌های هوش مصنوعی OpenAI با کتاب‌های پولی O’Reilly آموزش دیده‌اند

دیدگاه‌ خود را بنویسید لغو پاسخ