دعوی جمعی علیه ادوبی: اتهام استفاده از نسخههای غیرمجاز کتابها برای آموزش مدل زبان SlimLM
شرکت نرمافزاری ادوبی که در سالهای اخیر سرمایهگذاری گستردهای روی هوش مصنوعی کرده است، اینبار با یک پرونده حقوقی مواجه شده است. شکایتی که بهصورت یک دعوی جمعی پیشنهادی به نمایندگی از الیزابت لیون، نویسندهای از اورگن، ثبت شده، ادعا میکند ادوبی برای آموزش یکی از مدلهای زبانی خود از نسخههای غیرمجاز و کپیشده کتابها استفاده کرده است.
متن شکایت و اتهامات کلیدی
براساس این شکایت که اولینبار توسط رویترز گزارش شد، لیون مدعی است آثار راهنمای غیرداستانی او در مجموعهای از دادههای پیشآموزش قرار گرفتهاند که ادوبی برای ساخت SlimLM از آن بهره برده است. ادوبی SlimLM را یک سری مدل زبان کوچک توصیف میکند که برای «وظایف کمک به اسناد روی دستگاههای موبایل» بهینهسازی میشود و میگوید این مدل بر اساس دادههای SlimPajama-627B که در ژوئن ۲۰۲۳ توسط شرکت Cerebras منتشر شده، پیشآموزش یافته است.
شاکی مدعی است که مجموعه داده SlimPajama در واقع نسخهای مشتقشده از RedPajama است و شامل مجموعه بزرگی به نام Books3 میباشد: «مجموعه SlimPajama با کپیبرداری و دستکاری مجموعه RedPajama (از جمله کپی Books3) ایجاد شده است. بنابراین SlimPajama بهعنوان یک نسخه مشتقشده از RedPajama، شامل مجموعه Books3 و آثار دارای حق نشر شاکی و اعضای گروه است.» Books3 مجموعهای عظیم شامل حدود ۱۹۱ هزار کتاب است که در آموزش بسیاری از سیستمهای مولد محتوا استفاده شده است.
سابقه و پروندههای مشابه در صنعت
این شکایت در ادامه چندین پرونده مشابه علیه شرکتهای بزرگ تکنولوژی مطرح شده است. بهعنوان مثال در سپتامبر گذشته، شکایتی علیه اپل ادعا کرد این شرکت از آثار دارای حق نشر برای آموزش مدل Apple Intelligence استفاده کرده است و در اکتبر نیز دعوی مشابهی علیه Salesforce مطرح شد که بهکارگیری RedPajama را متهم ساخت. همچنین در یکی از پروندههای پر سروصدا، شرکت Anthropic پذیرفت برای حل اختلاف با گروهی از نویسندگان مبلغی در حدود ۱.۵ میلیارد دلار پرداخت کند؛ شکایاتی که مدعی استفاده از نسخههای غیرمجاز آثار برای آموزش مدلهای چتبات بودند.
ابعاد حقوقی و پیامدها برای اکوسیستم هوش مصنوعی
این نوع دعاوی تمرکز تازهای بر روشهای گردآوری و پاکسازی دادههای آموزشی مدلهای هوش مصنوعی ایجاد کردهاند. نکات کلیدی مورد مناقشه عبارتاند از:
– ماهیت حقوقی «مجموعههای مشتقشده» و مسؤولیت تهیهکنندگان مدل در قبال محتوای درون این مجموعهها؛
– ضرورت شناسایی، مجوزدهی یا جبران مادی برای استفاده از آثار دارای حق نشر؛
– اهمیت شفافیت و رویههای دقیق در مسیر تهیه، فیلتر و حذف محتوای محافظتشده از دیتاستهای بزرگ.
اگر دادگاهها به نفع نویسندگان رای دهند، میتواند تأثیر گستردهای بر شیوهٔ توسعه و استقرار مدلهای زبانی و مولد محتوا داشته باشد؛ از جمله افزایش هزینهها برای دسترسی به دادههای دارای مجوز، نیاز به روشهای بهتر برای اثبات اصالت دادهها و احتمال کاهش سرعت توسعه برخی محصولات هوش مصنوعی یا تغییر رویکرد شرکتها به سمت استفاده از دادههای کاملاً مجاز و ایجاد محتوا توسط خود.
نتیجهگیری
پرونده الیزابت لیون علیه ادوبی تنها یکی از موارد متعددِ مطرحشده در زمینهٔ مناقشات حقوقی پیرامون دادههای آموزشی هوش مصنوعی است. با ادامه این روند قضایی، شرکتها ناچار خواهند شد دقت و شفافیت بیشتری در جمعآوری و استفاده از دادهها به کار گیرند و نویسندگان و صاحبان آثار نیز بیش از پیش به دنبال احقاق حق و دریافت غرامت برای استفادههای بدون مجوز باشند. پیگیری این پرونده و آراء آینده میتواند سرنوشتساز برای سیاستگذاری، توسعه و کسبوکارهای مبتنی بر هوش مصنوعی باشد.
