بنیاد ویکیمدیا، سازمان مادر ویکیپدیا و چندین پروژه دانش جمعسپاری دیگر، اعلام کرد که مصرف پهنای باند برای دانلود محتوای چندرسانهای از پایگاه داده آزاد Wikimedia Commons از ژانویه ۲۰۲۴ تا به حال ۵۰ درصد افزایش داشته است. اما این افزایش را نباید به عطش کاربران انسانی برای دسترسی به دانش مرتبط دانست؛ بلکه عامل اصلی آن رباتهای هوش مصنوعی هستند که برای آموزش مدلهای خود، به مقادیر عظیمی از داده نیاز دارند.
در یک پست وبلاگ، بنیاد ویکیمدیا توضیح داده است: «زیرساخت ما برای مقابله با افزایش ناگهانی ترافیک انسانی در زمان رویدادهای پرمخاطب طراحی شده، اما حجم ترافیکی که از سوی رباتهای جمعآوریکننده داده تولید میشود، بیسابقه بوده و خطرات و هزینههای فزایندهای ایجاد کرده است.»
Wikimedia Commons، پایگاه دادهای آزاد شامل تصاویر، ویدیوها و فایلهای صوتی است که تحت مجوزهای باز یا در حوزه عمومی منتشر شدهاند. بر اساس گزارش بنیاد ویکیمدیا، نزدیک به دوسوم (۶۵ درصد) از ترافیک «گرانقیمت» – یعنی ترافیکی که مصرف منابع بیشتری دارد – از رباتها ناشی میشود. این در حالی است که تنها ۳۵ درصد از بازدیدهای صفحات، متعلق به این رباتها است.
عامل این اختلاف، به گفته بنیاد ویکیمدیا، نحوه ذخیرهسازی محتوای پردسترسی و کمدسترسی است. محتوای پردسترسی نزدیکتر به کاربر و در کش ذخیره میشود، در حالی که محتوای کمدسترسی در مراکز داده اصلی ذخیره شده که ارائه آن هزینه بالاتری دارد. این نوع محتوا اغلب توسط رباتها مورد هدف قرار میگیرد.
بنیاد ویکیمدیا در ادامه آورده است: «کاربران انسانی معمولاً بر موضوعات مشخص و مشابه تمرکز دارند، اما رباتهای خزنده به صورت گسترده صفحات بیشتری را مرور کرده و حتی به صفحات کمتر محبوب سر میزنند. این نوع درخواستها بیشتر به مراکز داده اصلی ارسال میشوند که مصرف منابع ما را بسیار پرهزینهتر میکند.»
تیم مسئول سایت در بنیاد ویکیمدیا اکنون باید زمان و منابع زیادی را صرف مسدود کردن رباتها کنند تا از اختلال در دسترسی کاربران معمولی جلوگیری کنند. این چالش پیش از هزینههای قابل توجه ابری که بنیاد باید بپردازد، رخ میدهد.
واقعیت این است که این موضوع تنها بخشی از یک روند سریع و رو به رشد است که تهدیدی جدی برای وجود اینترنت آزاد محسوب میشود. ماه گذشته، یکی از مهندسین نرمافزار و حامیان متنباز، در مورد نادیده گرفتن فایلهای “robots.txt” توسط رباتهای هوش مصنوعی انتقاد کرد؛ فایلهایی که اساساً برای جلوگیری از ترافیک خودکار طراحی شدهاند. همچنین، «مهندس عملگرا» گرگلی اوروس اشارهای مشابه داشت که رباتهای جمعآوری داده از سوی شرکتهایی مانند متا موجب افزایش تقاضای پهنای باند برای پروژههای او شدهاند.
برخی شرکتهای فناوری در حال تلاش برای مقابله با این چالش هستند. به عنوان مثال، شرکت Cloudflare اخیراً ابزار AI Labyrinth را معرفی کرد که با استفاده از محتوای تولیدشده توسط هوش مصنوعی، سرعت رباتها را کاهش میدهد. با این حال، این چالش هنوز به شکل یک بازی موش و گربه باقی مانده است که ممکن است در نهایت بسیاری از ناشران را مجبور به استفاده از ورود محدود (لاگین) یا دیوارهای پرداختی کند؛ اقدامی که میتواند به ضرر کاربران اینترنت باشد.
برای مطالعه اخبار و تحلیلهای بیشتر در زمینه فناوری و هوش مصنوعی، همراه ما در وبسایت بینا ویرا باشید.