الترک آن رفاقای زحمتکش!
سازمان تحقیقاتی هوش مصنوعی EleutherAI اخیراً از یکی از بزرگترین مجموعههای متنی مجاز و عمومی برای آموزش مدلهای هوش مصنوعی پردهبرداری کرده است. این مجموعه داده با نام The Common Pile v0.1، پس از نزدیک به دو سال تلاش، در همکاری با استارتاپهای فعال در حوزه هوش مصنوعی از جمله Poolside و Hugging Face و چندین نهاد دانشگاهی گردآوری شده است. حجم این مجموعه داده به 8 ترابایت میرسد و از آن برای آموزش دو مدل جدید هوش مصنوعی EleutherAI با نامهای Comma v0.1-1T و Comma v0.1-2T استفاده شده است. EleutherAI ادعا میکند که این مدلها از لحاظ عملکرد با مدلهای توسعه داده شده بر پایه دادههای مجوزدار و دارای حق نشر رقابت میکنند.
هماکنون، شرکتهای هوش مصنوعی نظیر OpenAI با دعاوی حقوقی درباره شیوههای آموزشی خود مواجه هستند؛ آنها به جمعآوری دادهها از وب از جمله محتوای دارای حق نشر مانند کتابها و نشریات علمی پرداختهاند. در حالی که برخی از این شرکتها توافقات مجوزی با تأمینکنندگان خاص محتوا دارند، اکثر آنها بر این باورند که اصل “استفاده منصفانه” قانونی در ایالات متحده آنها را از مسئولیت در استفاده از آثار دارای حق نشر محافظت میکند.
EleutherAI معتقد است که این دعاوی باعث “کاهش شدید” شفافیت در فعالیتهای شرکتهای هوش مصنوعی شده و این موضوع به تحقیقات علمی در این حوزه آسیب رسانده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در یک پست وبلاگی اعلام کرد: «دعاوی [حقوقی] بهصورت معنیداری شیوههای تأمین دادهها در آموزش مدلها را تغییر ندادهاند، اما شفافیت در عملکرد شرکتها را به شدت کاهش دادهاند.»
The Common Pile v0.1 که اکنون از پلتفرم توسعه هوش مصنوعی Hugging Face و GitHub قابل دانلود است، با مشورت کارشناسان حقوقی ایجاد شده و شامل منابع متنوعی از جمله 300,000 کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره و آرشیو اینترنت است. همچنین EleutherAI از مدل متن به گفتار Whisper، که منبع باز OpenAI است، برای رونویسی محتوای صوتی استفاده کرده است.
EleutherAI ادعا میکند که مدلهای Comma v0.1-1T و Comma v0.1-2T مستنداتی هستند که نشان میدهد The Common Pile v0.1 به اندازه کافی بهدقت انتخاب شده تا برای توسعهدهندگان امکان ساخت مدلهایی رقابتی با جایگزینهای دارای حق نشر را فراهم کند. این دو مدل که هریک دارای 7 میلیارد پارامتر هستند و تنها بر روی بخشی از The Common Pile v0.1 آموزش دیدهاند، با مدلهایی مانند Llama AI شرکت متا در زمینه کدنویسی، درک تصویر و ریاضیات رقابت دارند.
مدلها، که بهعنوان پارامترها نیز شناخته میشوند، اجزای داخلی یک مدل هوش مصنوعی هستند که رفتار و پاسخهای آن را هدایت میکنند. بیدرمن در پست خود نوشت: «بهطور کلی، ما بر این باوریم که تصور عمومی مبنی بر اینکه متنهای بدون مجوز عملکرد را بهبود میبخشد، واقعیت ندارد. با رشد دادههای عمومی و دارای مجوز، انتظار میرود کیفیت مدلهای آموزش دیده بر روی این محتوا نیز بهبود یابد.»
The Common Pile v0.1 بخشی از تلاشی است تا اشتباهات تاریخی EleutherAI را rectification کند. سالها پیش، این شرکت The Pile را منتشر کرد که یک مجموعه باز از متون آموزشی شامل مواد دارای حق نشر بود. استفاده از The Pile برای آموزش مدلها، به شدت مورد انتقاد و فشارهای قانونی قرار گرفته است. EleutherAI همچنین متعهد شده است تا بهطور مکرر مجموعههای داده باز را در همکاری با شرکای تحقیقاتی و زیرساختی خود منتشر کند.
بهروزرسانی: بیدرمن در پستی در X تصریح کرد که EleutherAI به انتشار این مجموعههای داده و مدلها کمک کرده است، اما توسعه آنها با همکاری بسیاری از شرکای دیگر، از جمله دانشگاه تورنتو، انجام گرفته است.