هم‌بنیان‌گذار RSS پروتکل جدیدی برای صدور مجوز داده‌های هوش مصنوعی راه‌اندازی کرد

رشد فشار حقوقی بر صنعت هوش مصنوعی؛ «Real Simple Licensing» راه‌حلی برای مجوزدهی داده‌های آموزشی معرفی شد

در پی توافق ۱.۵ میلیارد دلاری Anthropic درباره دعاوی حق نشر، بحث گسترده‌ای درباره مشکل داده‌های آموزشی مدل‌های هوش مصنوعی به راه افتاده است. هم‌اکنون حدود ۴۰ پرونده قضایی دیگر به‌خاطر استفاده غیرمجاز از داده‌ها مطرح شده که از آن جمله می‌توان به شکایت علیه Midjourney برای تولید تصاویر سوپرمن اشاره کرد. نبود یک سیستم استاندارد مجوزدهی می‌تواند موجی از دعاوی حقوقی را به دنبال داشته باشد که نگرانی‌هایی درباره عقب‌گرد دائمی صنعت هوش مصنوعی ایجاد کرده است.

روند شکل‌گیری Real Simple Licensing (RSL)
گروهی از تکنولوژیست‌ها و ناشران وب سیستم جدیدی به نام Real Simple Licensing (RSL) را راه‌اندازی کرده‌اند تا امکان مجوزدهی گسترده و خودکار داده‌های آموزشی فراهم شود. این پروژه که از حمایت ناشران بزرگی مانند Reddit، Quora و Yahoo برخوردار است، ترکیبی از راهکارهای فنی و سازوکارهای حقوقی را ارائه می‌دهد تا جمع‌آوری و استفاده از محتوای وب برای آموزش مدل‌ها شفاف و قابل مدیریت شود.

جنبه فنی: پروتکل و فرمت ماشین‌خوان
پروتکل RSL مجموعه‌ای از شرایط مجوزدهی را تعریف می‌کند که ناشران می‌توانند برای محتوای خود تعیین کنند؛ از جمله الزام به دریافت مجوز سفارشی یا پذیرش شرایط Creative Commons. ناشران شرکت‌کننده این شرایط را در فایل robots.txt سایت خود با فرمت از پیش تعیین‌شده قرار می‌دهند تا ربات‌ها و مدل‌ها به‌صورت خودکار و ماشین‌خوان تصمیم بگیرند کدام داده تحت چه قواعدی قرار دارد. به بیان ساده، این روش امکان شناسایی سریع و خودکار محتوای دارای مجوز را فراهم می‌کند.

جنبه حقوقی: سازمان جمعی مجوزدهی (RSL Collective)
در بخش حقوقی، تیم RSL سازمان جمعی‌ای به نام RSL Collective را تشکیل داده است که می‌تواند برای ناشران مذاکره کند و حق‌الامتیازها را جمع‌آوری کند؛ مشابه سازوکارهایی مانند ASCAP در موسیقی یا MPLC در فیلم. هدف ایجاد یک نقطه تماس واحد برای پرداخت حق‌الامتیازها و فراهم کردن امکان تعیین شرایط برای گروهی از دارندگان حقوق است، به‌خصوص برای ناشرانی که توان مذاکره مستقل ندارند.

چه ناشرانی به این سامانه پیوسته‌اند؟
قبلاً چندین ناشر بزرگ به عضویت این سازمان درآمده‌اند؛ از جمله Yahoo، Reddit، Medium، O’Reilly Media، Ziff Davis (مالک Mashable و CNET)، Internet Brands (مالک WebMD)، People Inc. و The Daily Beast. دیگران مانند Fastly، Quora و Adweek از استاندارد RSL حمایت می‌کنند بدون اینکه عضو جمعی شوند. لازم به ذکر است که برخی ناشران مثل Reddit پیش از این نیز قراردادهای مجوزدهی جداگانه‌ای دارند (گزارش‌ها حاکی از حدود ۶۰ میلیون دلار در سال از طرف Google برای Reddit است) و RSL امکان ثبت چنین قراردادهای اختصاصی را نیز فراهم می‌کند.

چالش‌ها و راهکارها در تعیین استفاده از داده‌ها
برخلاف پخش یک آهنگ که تاریخ و زمان اجرا مشخص است، تعیین اینکه آیا یک سند خاص در فرایند آموزش یک مدل استفاده شده دشوار است. در محصولاتی مانند Google AI Search Abstracts که داده‌ها در زمان واقعی استخراج و هر منبع با اقتباس منبع مشخص می‌شود، ردیابی ساده‌تر است. اما وقتی آموزش مدل‌ها ثبت نشود، اثبات استفاده از یک سند در یک LLM تقریباً غیرممکن می‌شود. یکی از گزینه‌های پیچیده، دریافت پرداخت «به ازای هر استنتاج» (per-inference) است که نیازمند لاگینگ دقیق و گزارش‌گیری است؛ در حالی که گزینه دیگری دریافت یک حق‌الامتیاز کلی (blanket fee) است. سازندگان RSL معتقدند شرکت‌های هوش مصنوعی از عهده این گزارش‌گیری برمی‌آیند؛ زیرا برخی قراردادهای قبلی همین الزام را داشته‌اند و گزارش‌پذیری ممکن است هرچند نه کامل، اما کافی برای اجرای پرداخت‌ها باشد.

آیا شرکت‌های هوش مصنوعی از RSL استفاده خواهند کرد؟
پذیرش RSL بستگی به تمایل آزمایشگاه‌ها و شرکت‌های توسعه‌دهنده مدل‌ها دارد. نمونه‌هایی مانند ScaleAI و Mercor نشان داده‌اند که پرداخت برای داده‌های باکیفیت قابل قبول است، اما دسترسی به دیتاست‌های رایگانی مانند Common Crawl باعث شده جامعه‌ای از توسعه‌دهندگان به منابع ارزان یا رایگان عادت کند. همچنین مرز میان وب‌سرقت (web-scraping) و مرور ماشینی تقویت‌شده (machine-enhanced browsing) مبهم است؛ نمونه اختلاف اخیر بین CloudFlare و Perplexity نشان می‌دهد که تعیین خط میان این دو ساده نیست.

فشار بازار و بیانیه‌های رهبران صنعت
چند رهبر صنعت هوش مصنوعی مانند سوندار پیچای (Sundar Pichai) قبلاً از لزوم یک سیستم مجوزدهی صحبت کرده‌اند. حمایت علنی از وجود یک پروتکل مجوزدهی می‌تواند فشار لازم برای پیوستن آزمایشگاه‌ها را افزایش دهد. اما در نهایت، پذیرش عملی RSL مستلزم ورود جدی شرکت‌های بزرگ هوش مصنوعی به میز مذاکره است.

جمع‌بندی
RSL نخستین تلاش جدی برای ایجاد زیرساخت فنی و حقوقی مجوزدهی در مقیاس وب است که می‌تواند مسیر آینده استفاده از داده‌های وب در آموزش مدل‌های هوش مصنوعی را شکل دهد. اگر شرکت‌های هوش مصنوعی این استاندارد را بپذیرند، ممکن است از موج دعاوی حقوقی جلوگیری و سازوکار عادلانه‌تری برای پرداخت به ناشران ایجاد شود؛ در غیر این صورت صنعت با مخاطرات حقوقی و اخلاقی ادامه مسیر خواهد داد.

تبدیل گفتار به نوشتار

هم‌بنیان‌گذار RSS پروتکل جدیدی برای صدور مجوز داده‌های هوش مصنوعی راه‌اندازی کرد

دیدگاه‌ خود را بنویسید لغو پاسخ