انتشار دیتاست گسترده آموزشی هوش مصنوعی از متون دارای مجوز و دامنه آزاد توسط EleutherAI

الترک آن رفاقای زحمتکش!

سازمان تحقیقاتی هوش مصنوعی EleutherAI اخیراً از یکی از بزرگ‌ترین مجموعه‌های متنی مجاز و عمومی برای آموزش مدل‌های هوش مصنوعی پرده‌برداری کرده است. این مجموعه داده با نام The Common Pile v0.1، پس از نزدیک به دو سال تلاش، در همکاری با استارتاپ‌های فعال در حوزه هوش مصنوعی از جمله Poolside و Hugging Face و چندین نهاد دانشگاهی گردآوری شده است. حجم این مجموعه داده به 8 ترابایت می‌رسد و از آن برای آموزش دو مدل جدید هوش مصنوعی EleutherAI با نام‌های Comma v0.1-1T و Comma v0.1-2T استفاده شده است. EleutherAI ادعا می‌کند که این مدل‌ها از لحاظ عملکرد با مدل‌های توسعه داده شده بر پایه داده‌های مجوزدار و دارای حق نشر رقابت می‌کنند.

هم‌اکنون، شرکت‌های هوش مصنوعی نظیر OpenAI با دعاوی حقوقی درباره شیوه‌های آموزشی خود مواجه هستند؛ آن‌ها به جمع‌آوری داده‌ها از وب از جمله محتوای دارای حق نشر مانند کتاب‌ها و نشریات علمی پرداخته‌اند. در حالی که برخی از این شرکت‌ها توافقات مجوزی با تأمین‌کنندگان خاص محتوا دارند، اکثر آن‌ها بر این باورند که اصل “استفاده منصفانه” قانونی در ایالات متحده آن‌ها را از مسئولیت در استفاده از آثار دارای حق نشر محافظت می‌کند.

EleutherAI معتقد است که این دعاوی باعث “کاهش شدید” شفافیت در فعالیت‌های شرکت‌های هوش مصنوعی شده و این موضوع به تحقیقات علمی در این حوزه آسیب رسانده است. استلا بی‌درمن، مدیر اجرایی EleutherAI، در یک پست وبلاگی اعلام کرد: «دعاوی [حقوقی] به‌صورت معنی‌داری شیوه‌های تأمین داده‌ها در آموزش مدل‌ها را تغییر نداده‌اند، اما شفافیت در عملکرد شرکت‌ها را به شدت کاهش داده‌اند.»

The Common Pile v0.1 که اکنون از پلتفرم توسعه هوش مصنوعی Hugging Face و GitHub قابل دانلود است، با مشورت کارشناسان حقوقی ایجاد شده و شامل منابع متنوعی از جمله 300,000 کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره و آرشیو اینترنت است. همچنین EleutherAI از مدل متن به گفتار Whisper، که منبع باز OpenAI است، برای رونویسی محتوای صوتی استفاده کرده است.

EleutherAI ادعا می‌کند که مدل‌های Comma v0.1-1T و Comma v0.1-2T مستنداتی هستند که نشان می‌دهد The Common Pile v0.1 به اندازه کافی به‌دقت انتخاب شده تا برای توسعه‌دهندگان امکان ساخت مدل‌هایی رقابتی با جایگزین‌های دارای حق نشر را فراهم کند. این دو مدل که هریک دارای 7 میلیارد پارامتر هستند و تنها بر روی بخشی از The Common Pile v0.1 آموزش دیده‌اند، با مدل‌هایی مانند Llama AI شرکت متا در زمینه کدنویسی، درک تصویر و ریاضیات رقابت دارند.

مدل‌ها، که به‌عنوان پارامترها نیز شناخته می‌شوند، اجزای داخلی یک مدل هوش مصنوعی هستند که رفتار و پاسخ‌های آن را هدایت می‌کنند. بی‌درمن در پست خود نوشت: «به‌طور کلی، ما بر این باوریم که تصور عمومی مبنی بر این‌که متن‌های بدون مجوز عملکرد را بهبود می‌بخشد، واقعیت ندارد. با رشد داده‌های عمومی و دارای مجوز، انتظار می‌رود کیفیت مدل‌های آموزش دیده بر روی این محتوا نیز بهبود یابد.»

The Common Pile v0.1 بخشی از تلاشی است تا اشتباهات تاریخی EleutherAI را rectification کند. سال‌ها پیش، این شرکت The Pile را منتشر کرد که یک مجموعه باز از متون آموزشی شامل مواد دارای حق نشر بود. استفاده از The Pile برای آموزش مدل‌ها، به شدت مورد انتقاد و فشارهای قانونی قرار گرفته است. EleutherAI همچنین متعهد شده است تا به‌طور مکرر مجموعه‌های داده باز را در همکاری با شرکای تحقیقاتی و زیرساختی خود منتشر کند.

به‌روزرسانی: بی‌درمن در پستی در X تصریح کرد که EleutherAI به انتشار این مجموعه‌های داده و مدل‌ها کمک کرده است، اما توسعه آن‌ها با همکاری بسیاری از شرکای دیگر، از جمله دانشگاه تورنتو، انجام گرفته است.

تشخیص گفتار هوشمند

انتشار دیتاست گسترده آموزشی هوش مصنوعی از متون دارای مجوز و دامنه آزاد توسط EleutherAI

دیدگاه‌ خود را بنویسید لغو پاسخ