دعوی جمعی علیه ادوبی: اتهام استفاده از نسخه‌های غیرمجاز کتاب‌ها برای آموزش مدل زبان SlimLM

شرکت نرم‌افزاری ادوبی که در سال‌های اخیر سرمایه‌گذاری گسترده‌ای روی هوش مصنوعی کرده است، این‌بار با یک پرونده حقوقی مواجه شده است. شکایتی که به‌صورت یک دعوی جمعی پیشنهادی به نمایندگی از الیزابت لیون، نویسنده‌ای از اورگن، ثبت شده، ادعا می‌کند ادوبی برای آموزش یکی از مدل‌های زبانی خود از نسخه‌های غیرمجاز و کپی‌شده کتاب‌ها استفاده کرده است.

متن شکایت و اتهامات کلیدی
براساس این شکایت که اولین‌بار توسط رویترز گزارش شد، لیون مدعی است آثار راهنمای غیرداستانی او در مجموعه‌ای از داده‌های پیش‌آموزش قرار گرفته‌اند که ادوبی برای ساخت SlimLM از آن بهره برده است. ادوبی SlimLM را یک سری مدل زبان کوچک توصیف می‌کند که برای «وظایف کمک به اسناد روی دستگاه‌های موبایل» بهینه‌سازی می‌شود و می‌گوید این مدل بر اساس داده‌های SlimPajama-627B که در ژوئن ۲۰۲۳ توسط شرکت Cerebras منتشر شده، پیش‌آموزش یافته است.

شاکی مدعی است که مجموعه داده SlimPajama در واقع نسخه‌ای مشتق‌شده از RedPajama است و شامل مجموعه بزرگی به نام Books3 می‌باشد: «مجموعه SlimPajama با کپی‌برداری و دستکاری مجموعه RedPajama (از جمله کپی Books3) ایجاد شده است. بنابراین SlimPajama به‌عنوان یک نسخه مشتق‌شده از RedPajama، شامل مجموعه Books3 و آثار دارای حق نشر شاکی و اعضای گروه است.» Books3 مجموعه‌ای عظیم شامل حدود ۱۹۱ هزار کتاب است که در آموزش بسیاری از سیستم‌های مولد محتوا استفاده شده است.

سابقه و پرونده‌های مشابه در صنعت
این شکایت در ادامه چندین پرونده مشابه علیه شرکت‌های بزرگ تکنولوژی مطرح شده است. به‌عنوان مثال در سپتامبر گذشته، شکایتی علیه اپل ادعا کرد این شرکت از آثار دارای حق نشر برای آموزش مدل Apple Intelligence استفاده کرده است و در اکتبر نیز دعوی مشابهی علیه Salesforce مطرح شد که به‌کارگیری RedPajama را متهم ساخت. همچنین در یکی از پرونده‌های پر سروصدا، شرکت Anthropic پذیرفت برای حل اختلاف با گروهی از نویسندگان مبلغی در حدود ۱.۵ میلیارد دلار پرداخت کند؛ شکایاتی که مدعی استفاده از نسخه‌های غیرمجاز آثار برای آموزش مدل‌های چت‌بات بودند.

ابعاد حقوقی و پیامدها برای اکوسیستم هوش مصنوعی
این نوع دعاوی تمرکز تازه‌ای بر روش‌های گردآوری و پاک‌سازی داده‌های آموزشی مدل‌های هوش مصنوعی ایجاد کرده‌اند. نکات کلیدی مورد مناقشه عبارت‌اند از:
– ماهیت حقوقی «مجموعه‌های مشتق‌شده» و مسؤولیت تهیه‌کنندگان مدل در قبال محتوای درون این مجموعه‌ها؛
– ضرورت شناسایی، مجوزدهی یا جبران مادی برای استفاده از آثار دارای حق نشر؛
– اهمیت شفافیت و رویه‌های دقیق در مسیر تهیه، فیلتر و حذف محتوای محافظت‌شده از دیتاست‌های بزرگ.

اگر دادگاه‌ها به نفع نویسندگان رای دهند، می‌تواند تأثیر گسترده‌ای بر شیوهٔ توسعه و استقرار مدل‌های زبانی و مولد محتوا داشته باشد؛ از جمله افزایش هزینه‌ها برای دسترسی به داده‌های دارای مجوز، نیاز به روش‌های بهتر برای اثبات اصالت داده‌ها و احتمال کاهش سرعت توسعه برخی محصولات هوش مصنوعی یا تغییر رویکرد شرکت‌ها به سمت استفاده از داده‌های کاملاً مجاز و ایجاد محتوا توسط خود.

نتیجه‌گیری
پرونده الیزابت لیون علیه ادوبی تنها یکی از موارد متعددِ مطرح‌شده در زمینهٔ مناقشات حقوقی پیرامون داده‌های آموزشی هوش مصنوعی است. با ادامه این روند قضایی، شرکت‌ها ناچار خواهند شد دقت و شفافیت بیشتری در جمع‌آوری و استفاده از داده‌ها به کار گیرند و نویسندگان و صاحبان آثار نیز بیش از پیش به دنبال احقاق حق و دریافت غرامت برای استفاده‌های بدون مجوز باشند. پیگیری این پرونده و آراء آینده می‌تواند سرنوشت‌ساز برای سیاست‌گذاری، توسعه و کسب‌وکارهای مبتنی بر هوش مصنوعی باشد.

دستیار هوشمند بینا ویرا

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا