رشد فشار حقوقی بر صنعت هوش مصنوعی؛ «Real Simple Licensing» راهحلی برای مجوزدهی دادههای آموزشی معرفی شد
در پی توافق ۱.۵ میلیارد دلاری Anthropic درباره دعاوی حق نشر، بحث گستردهای درباره مشکل دادههای آموزشی مدلهای هوش مصنوعی به راه افتاده است. هماکنون حدود ۴۰ پرونده قضایی دیگر بهخاطر استفاده غیرمجاز از دادهها مطرح شده که از آن جمله میتوان به شکایت علیه Midjourney برای تولید تصاویر سوپرمن اشاره کرد. نبود یک سیستم استاندارد مجوزدهی میتواند موجی از دعاوی حقوقی را به دنبال داشته باشد که نگرانیهایی درباره عقبگرد دائمی صنعت هوش مصنوعی ایجاد کرده است.
روند شکلگیری Real Simple Licensing (RSL)
گروهی از تکنولوژیستها و ناشران وب سیستم جدیدی به نام Real Simple Licensing (RSL) را راهاندازی کردهاند تا امکان مجوزدهی گسترده و خودکار دادههای آموزشی فراهم شود. این پروژه که از حمایت ناشران بزرگی مانند Reddit، Quora و Yahoo برخوردار است، ترکیبی از راهکارهای فنی و سازوکارهای حقوقی را ارائه میدهد تا جمعآوری و استفاده از محتوای وب برای آموزش مدلها شفاف و قابل مدیریت شود.
جنبه فنی: پروتکل و فرمت ماشینخوان
پروتکل RSL مجموعهای از شرایط مجوزدهی را تعریف میکند که ناشران میتوانند برای محتوای خود تعیین کنند؛ از جمله الزام به دریافت مجوز سفارشی یا پذیرش شرایط Creative Commons. ناشران شرکتکننده این شرایط را در فایل robots.txt سایت خود با فرمت از پیش تعیینشده قرار میدهند تا رباتها و مدلها بهصورت خودکار و ماشینخوان تصمیم بگیرند کدام داده تحت چه قواعدی قرار دارد. به بیان ساده، این روش امکان شناسایی سریع و خودکار محتوای دارای مجوز را فراهم میکند.
جنبه حقوقی: سازمان جمعی مجوزدهی (RSL Collective)
در بخش حقوقی، تیم RSL سازمان جمعیای به نام RSL Collective را تشکیل داده است که میتواند برای ناشران مذاکره کند و حقالامتیازها را جمعآوری کند؛ مشابه سازوکارهایی مانند ASCAP در موسیقی یا MPLC در فیلم. هدف ایجاد یک نقطه تماس واحد برای پرداخت حقالامتیازها و فراهم کردن امکان تعیین شرایط برای گروهی از دارندگان حقوق است، بهخصوص برای ناشرانی که توان مذاکره مستقل ندارند.
چه ناشرانی به این سامانه پیوستهاند؟
قبلاً چندین ناشر بزرگ به عضویت این سازمان درآمدهاند؛ از جمله Yahoo، Reddit، Medium، O’Reilly Media، Ziff Davis (مالک Mashable و CNET)، Internet Brands (مالک WebMD)، People Inc. و The Daily Beast. دیگران مانند Fastly، Quora و Adweek از استاندارد RSL حمایت میکنند بدون اینکه عضو جمعی شوند. لازم به ذکر است که برخی ناشران مثل Reddit پیش از این نیز قراردادهای مجوزدهی جداگانهای دارند (گزارشها حاکی از حدود ۶۰ میلیون دلار در سال از طرف Google برای Reddit است) و RSL امکان ثبت چنین قراردادهای اختصاصی را نیز فراهم میکند.
چالشها و راهکارها در تعیین استفاده از دادهها
برخلاف پخش یک آهنگ که تاریخ و زمان اجرا مشخص است، تعیین اینکه آیا یک سند خاص در فرایند آموزش یک مدل استفاده شده دشوار است. در محصولاتی مانند Google AI Search Abstracts که دادهها در زمان واقعی استخراج و هر منبع با اقتباس منبع مشخص میشود، ردیابی سادهتر است. اما وقتی آموزش مدلها ثبت نشود، اثبات استفاده از یک سند در یک LLM تقریباً غیرممکن میشود. یکی از گزینههای پیچیده، دریافت پرداخت «به ازای هر استنتاج» (per-inference) است که نیازمند لاگینگ دقیق و گزارشگیری است؛ در حالی که گزینه دیگری دریافت یک حقالامتیاز کلی (blanket fee) است. سازندگان RSL معتقدند شرکتهای هوش مصنوعی از عهده این گزارشگیری برمیآیند؛ زیرا برخی قراردادهای قبلی همین الزام را داشتهاند و گزارشپذیری ممکن است هرچند نه کامل، اما کافی برای اجرای پرداختها باشد.
آیا شرکتهای هوش مصنوعی از RSL استفاده خواهند کرد؟
پذیرش RSL بستگی به تمایل آزمایشگاهها و شرکتهای توسعهدهنده مدلها دارد. نمونههایی مانند ScaleAI و Mercor نشان دادهاند که پرداخت برای دادههای باکیفیت قابل قبول است، اما دسترسی به دیتاستهای رایگانی مانند Common Crawl باعث شده جامعهای از توسعهدهندگان به منابع ارزان یا رایگان عادت کند. همچنین مرز میان وبسرقت (web-scraping) و مرور ماشینی تقویتشده (machine-enhanced browsing) مبهم است؛ نمونه اختلاف اخیر بین CloudFlare و Perplexity نشان میدهد که تعیین خط میان این دو ساده نیست.
فشار بازار و بیانیههای رهبران صنعت
چند رهبر صنعت هوش مصنوعی مانند سوندار پیچای (Sundar Pichai) قبلاً از لزوم یک سیستم مجوزدهی صحبت کردهاند. حمایت علنی از وجود یک پروتکل مجوزدهی میتواند فشار لازم برای پیوستن آزمایشگاهها را افزایش دهد. اما در نهایت، پذیرش عملی RSL مستلزم ورود جدی شرکتهای بزرگ هوش مصنوعی به میز مذاکره است.
جمعبندی
RSL نخستین تلاش جدی برای ایجاد زیرساخت فنی و حقوقی مجوزدهی در مقیاس وب است که میتواند مسیر آینده استفاده از دادههای وب در آموزش مدلهای هوش مصنوعی را شکل دهد. اگر شرکتهای هوش مصنوعی این استاندارد را بپذیرند، ممکن است از موج دعاوی حقوقی جلوگیری و سازوکار عادلانهتری برای پرداخت به ناشران ایجاد شود؛ در غیر این صورت صنعت با مخاطرات حقوقی و اخلاقی ادامه مسیر خواهد داد.
