پروژه جدید دسترسی هوش مصنوعی به داده‌های ویکی‌پدیا را آسان‌تر می‌کند

ویکی‌دیتا وارد عصر جستجوی برداری شد؛ دسترسی ساده‌تر مدل‌های هوش مصنوعی به دانش ویکی‌پدیا

روز چهارشنبه، Wikimedia Deutschland پروژه‌ای جدید با نام «Wikidata Embedding Project» را معرفی کرد که هدف آن فراهم‌سازی دسترسی بهتر و مبتنی بر معنای واژگانی (جستجوی برداری) به مجموعه داده‌های عظیم ویکی‌پدیا و پلتفرم‌های وابسته است. این پایگاه داده شامل نزدیک به 120 میلیون مدخل است و با پشتیبانی از استاندارد تازه‌ای به نام Model Context Protocol (MCP)، امکان پاسخ‌گویی طبیعی‌تر به پرسش‌های زبان‌طبیعی توسط مدل‌های زبانی بزرگ (LLM) را فراهم می‌آورد.

چه چیزی تغییر کرده است؟
تا امروز ویکی‌دیتا داده‌های ساخت‌یافته ماشین‌خوان را در اختیار قرار می‌داد اما بیشتر ابزارهای موجود صرفاً جستجوی کلیدواژه یا پرس‌وجوی SPARQL را پشتیبانی می‌کردند؛ رویکردی که برای استخراج روابط معنایی و زمینه‌سازِ پاسخ‌دهی دقیق‌تر محدودیت‌هایی داشت. پروژه جدید با تولید «بردارهای جاسازی‌شده» (embeddings) برای مفاهیم و موجودیت‌ها، امکان جستجوی معنایی را فراهم می‌کند تا مدل‌های هوش مصنوعی بتوانند بهتر بفهمند یک واژه در چه زمینه‌هایی به کار رفته و چگونه با مفاهیم مرتبط پیوند می‌یابد.

کاربردها و مزایا برای توسعه‌دهندگان هوش مصنوعی
– پشتیبانی از سیستم‌های RAG (Retrieval-Augmented Generation): مدل‌ها می‌توانند اطلاعات بیرونی را به‌صورت زمینه‌ای وارد فرایند تولید متن کنند تا پاسخ‌ها مستندتر و قابل‌اعتمادتر باشند.
– زمینه‌سازی معنایی دقیق‌تر: برای مثال پرس‌وجوی «scientist» نه تنها نام دانشمندان برجسته را بازمی‌گرداند، بلکه معانی مرتبط، ترجمه‌ها، تصاویر تاییدشده و ارتباطات مفهومی مانند “researcher” یا “scholar” را نیز فراهم می‌کند.
– دسترسی عمومی: دیتابیس به‌صورت عمومی روی Toolforge در دسترس است و تیم ویکی‌دیتا در تاریخ 9 اکتبر وبیناری برای توسعه‌دهندگان برگزار می‌کند تا نحوه بهره‌برداری از این منابع را آموزش دهد.

همکاری‌های فنی و استقلال پروژه
این پروژه توسط شاخه آلمانی ویکی‌مدیا و با همکاری شرکت‌های فعال در حوزه جستجوی عصبی و داده‌های آموزش در زمان واقعی—Jina.AI و DataStax (شرکت متعلق به IBM)—پیاده‌سازی شده است. مدیر پروژه ویکی‌دیتا در حوزه هوش مصنوعی، فیلیپ سادِه، تاکید کرده که این ابتکار نشان می‌دهد هوش مصنوعی قدرتمند الزاماً نباید در انحصار چند شرکت بزرگ باقی بماند و می‌تواند به‌صورت باز، مشارکتی و در خدمت عموم توسعه یابد.

چرا این کار مهم است؟
با پیچیده‌تر شدن سیستم‌های آموزش و نیاز روزافزون به داده‌های باکیفیت و ساخت‌یافته برای آموزش و تنظیم مدل‌ها، منابعی مانند ویکی‌دیتا که توسط جامعه‌ای از ویراستاران انسانی بازبینی می‌شوند، یک جایگزین قابل‌اتکا در برابر مجموعه‌های داده‌ی بدون کنترل مانند Common Crawl فراهم می‌کنند. برای پروژه‌ها و کاربردهایی که دقت و صحت اطلاعات اهمیت بالایی دارد، دسترسی به داده‌های مستند و قابل پیگیری حیاتی است.

زمینه‌های حقوقی و اقتصادی
نیاز به داده‌های باکیفیت گاهی هزینه‌‌های سنگینی به همراه دارد؛ نمونه‌ای از این فشارها در ماه‌های اخیر، پیشنهاد تسویه 1.5 میلیارد دلاری شرکت Anthropic برای پایان دادن به شکایات نویسندگان در مورد استفاده از آثارشان به‌عنوان داده‌های آموزشی بوده است. در همین چارچوب، ارائه منابع باز، معتبر و شفاف مانند Wikidata Embedding Project می‌تواند راه حلی مقرون‌به‌صرفه و اخلاقی برای توسعه‌دهندگان مدل‌ها باشد.

نتیجه‌گیری
Wikidata Embedding Project گامی مهم در جهت قابل‌استفاده‌تر کردن دانش ویکی‌پدیا برای نسل جدید مدل‌های هوش مصنوعی است؛ پروژه‌ای که هم به افزایش دقت مدل‌ها کمک می‌کند و هم امکان دسترسی عادلانه‌تر به منابع دانش‌بنیان را تقویت می‌نماید. توسعه‌دهندگان و محققان علاقه‌مند می‌توانند از طریق Toolforge به این دیتابیس دسترسی پیدا کنند و در وبینار 9 اکتبر شرکت کنند تا از جزئیات فنی و راه‌های ادغام آن در پروژه‌های خود مطلع شوند.

تبدیل متن‌های فارسی به صوت

پروژه جدید دسترسی هوش مصنوعی به داده‌های ویکی‌پدیا را آسان‌تر می‌کند

دیدگاه‌ خود را بنویسید لغو پاسخ