با رشد روزافزون عملیات هوش مصنوعی در صنایع مختلف، دسترسی به دادهها دیگر کافی نیست. امروزه، شرکتها به دسترسی قابل اعتماد، منظم و دقیق به دادهها نیاز دارند. در این زمینه، تأمینکنندگان پایگاههای داده SQL توزیعشده نقشی کلیدی ایفا میکنند و پلتفرمهای پایگاه داده تکرارشوندهای را ارائه میدهند که میتواند بسیار مقاوم و در دسترس باشد. آخرین بهروزرسانی از شرکت Cockroach Labs به قابلیت جستجوی برداری و هوش مصنوعی عاملی در مقیاس SQL توزیعشده اختصاص یافته است. CakeroachDB 25.2 امروز منتشر شده است و وعده افزایش بهرهوری 41٪ را با خود به همراه دارد. این نسخه شامل یک شاخص برداری بهینهسازیشده برای مقیاس SQL توزیعشده و بهبودهای اساسی در پایگاهداده است که عملکرد و امنیت را افزایش میدهد.
CockroachDB یکی از گزینههای متعدد SQL توزیعشده در بازار امروز است که شامل محصولات دیگری چون Yugabyte، Amazon Aurora dSQL و Google AlloyDB میشود. از زمانی که این شرکت یک دهه پیش تأسیس شد، تلاش کرده است تا خود را در مقایسه با رقبای خود به عنوان یک پایگاهداده مقاومتر معرفی کند. نام “Cockroach” به این معناست که سوسکها واقعاً سخت میمیرند و این مفهوم همچنان در عصر هوش مصنوعی اهمیت دارد. “مردم قطعاً به هوش مصنوعی علاقهمند هستند، اما دلیل استفاده از Cockroach در پنج سال گذشته، دو سال گذشته و حتی امسال کاملاً یکسان به نظر میرسد، آنها به این پایگاهداده نیاز دارند تا زنده بمانند”، این را اسپنسر کیمبال، یکی از بنیانگذاران و مدیرعامل Cockroach Labs به VentureBeat گفت. “هوش مصنوعی در زمینه ما، هوش مصنوعی همراه با قابلیتهای عملیاتی است که Cockroach ارائه میدهد… بنابراین به میزان اهمیت هوش مصنوعی، نحوه بقا هوش مصنوعی من هم مهم است.”
پایگاههای داده مجهز به قابلیت برداری که توسط سیستمهای هوش مصنوعی برای آموزش و همچنین سناریوهای تولید افزوده بازیابی (RAG) استفاده میشوند، در سال 2025 معمولی خواهند بود. کیمبال تأکید کرد که پایگاههای داده برداری امروز روی گرههای واحد به خوبی کار میکنند، اما در استقرارهای بزرگتر با چندین گره جغرافیایی پخششده دچار مشکلاتی میشوند که این دقیقاً مفهوم SQL توزیعشده است. رویکرد CockroachDB به حل مشکل پیچیده فهرستگذاری برداری توزیعشده پرداخته است. شاخص برداری جدید C-SPANN این شرکت از الگوریتم SPANN که براساس تحقیقات مایکروسافت است، استفاده میکند و به طور خاص برای مدیریت میلیاردها بردار در یک سیستم دیسکمحور توزیعشده طراحی شده است.
درجه بندی فنی این چالش پیچیده را بهتر نشان میدهد. فهرستگذاری برداری در CockroachDB یک جدول جداگانه نیست؛ بلکه نوعی شاخص است که به ستونهای موجود در جداول موجود اعمال میشود. بدون یک شاخص، جستجوهای مشابهت برداری از طریق تمام دادهها با استفاده از روشهای خطی انجام میشوند. این برای مجموعههای کوچک داده مناسب است، اما با رشد جداول به شدت کند میشود. تیم مهندسی Cockroach Labs مجبور شده است چندین مشکل را به طور همزمان حل کند: کارایی یکنواخت در مقیاس وسیع، شاخصهای متوازن خودکار و حفظ دقت در حالی که دادههای پایه به سرعت تغییر میکنند. کیمبال توضیح داد که الگوریتم C-SPANN از طریق ایجاد یک سلسلهمراتب از بخشها برای بردارها در یک فضای چندبعدی بسیار بالا، این چالشها را حل میکند. این ساختار سلسلهمراتبی امکان جستجوهای مشابهت کارآمد را حتی در میلیاردها بردار فراهم میآورد.
در کنار این ویژگیهای تکنیکی، CockroachDB 25.2 قابلیتهای امنیتی بهبود یافتهای را معرفی میکند که شامل امنیت در سطح ردیف و مجموعههای رمزنگاری قابل پیکربندی میشود. این قابلیتها به نیازهای نظارتی مانند DORA و NIS2 که بسیاری از سازمانها با آن دست و پنجه نرم میکنند، پاسخ میدهد. تحقیقات Cockroach Labs نشان میدهد که 79٪ از رهبران فناوری معتقدند برای مقررات جدید آمادگی کافی ندارند. در عین حال، 93٪ از آنها درباره تأثیر مالی خرابیها که به طور متوسط بیش از 222,000 دلار در سال است، ابراز نگرانی کردهاند.
کیمبال بیان کرد: “امنیت چیزی است که به طرز قابل توجهی افزایش یافته و تأثیرات ناشی از این هوش مصنوعی بر آن غیرقابل انکار است.” موج جدید بارهای کاری مبتنی بر هوش مصنوعی، چالشی به نام “دادههای بزرگ عملیاتی” را ایجاد میکند که به طور بنیادین با چالشهای تحلیل دادههای بزرگ سنتی متفاوت است. در حالی که دادههای بزرگ سنتی بر پردازش دستهای مجموعههای بزرگ داده برای دستیابی به بینش تمرکز دارند، دادههای بزرگ عملیاتی نیاز به عملکرد واقعی در مقیاس وسیع برای اپلیکیشنهای حیاتی دارند.
کیمبال تأکید کرد که “وقتی واقعاً به پیامدهای هوش مصنوعی عاملیت میاندیشید، فعالیتهای بیشتری در حال انجام است که به APIها فشار میآورد و در نهایت الزامات تولید برای پایگاههای داده زیرین را ایجاد میکند.” این تفاوت در پارادایم از اهمیت بالایی برخوردار است. سیستمهای داده سنتی میتوانند تاخیر و ثبات تدریجی را تحمل کنند زیرا از بارهای کاری تحلیلی پشتیبانی میکنند. در مقابل، دادههای بزرگ عملیاتی اپلیکیشنهای زنده را تقویت میکنند که در آنجا میکروثانیهها اهمیت دارند و ثبات نمیتواند به خطر بیافتد.
به منظور مقابله با مقیاس روزافزون دسترسی به دادهها، بهبود در اقتصاد و کارایی مورد نیاز است. Cockroach Labs ادعا میکند که CockroachDB 25.2 بهبود 41 درصدی در بهرهوری را فراهم میکند. دو بهینهسازی کلیدی در این نسخه که به بهبود کلی کارآیی پایگاهداده کمک میکند، طرحهای جستجوی عمومی و نوشتن با بافر هستند. نوشتن با بافر یک مشکل خاص را در جستجوهای تولید شده توسط نگاشت شیء-رابط حل میکند که معمولاً “چتی” هستند و به طور ناکارآمد دادهها را از طریق گرههای توزیعشده میخوانند و مینویسند. ویژگی نوشتن با بافر نوشتنهای شما را در هماهنگکنندههای SQL محلی نگه میدارد و این کار، سفرهای غیرضروری به شبکه را از بین میبرد.
طرحهای جستجوی عمومی به یک ناکارآمدی بنیادین در اپلیکیشنهای با حجم بالا میپردازند. بیشتر اپلیکیشنهای شرکتی از یک مجموعه محدود از نوع تراکنشها استفاده میکنند که میلیونها بار با پارامترهای مختلف اجرا میشوند. به جای برنامهریزی مجدد ساختارهای جستجوی مشابه، CockroachDB اکنون این طرحها را ذخیره و دوباره استفاده میکند. پیادهسازی طرحهای جستجوی عمومی در سیستمهای توزیعشده چالشهایی متفاوت از پایگاههای داده تکگرهای ایجاد میکند.
رهبران داده در سازمانها با چالشهای فوری مواجه هستند زیرا هوش مصنوعی عاملی تهدیدی برای زیرساختهای پایگاهداده فعلی به حساب میآید. انتقال از بارهای کاری انسانی به بارهای کاری مبتنی بر هوش مصنوعی، چالشهای دادههای بزرگ عملیاتی را ایجاد میکند که بسیاری از سازمانها آمادگی لازم برای مواجهه با آن را ندارند. آمادهسازی هماکنون برای رشد اجتنابناپذیر ترافیک داده ناشی از هوش مصنوعی عاملی، امری ضروری است. برای سازمانهایی که در پذیرش هوش مصنوعی پیشرو هستند، سرمایهگذاری در یک معماری پایگاهداده توزیعشده که قادر به مدیریت عملیات SQL سنتی و عملیات برداری در مقیاس باشد، منطقی به نظر میرسد. CockroachDB 25.2 یکی از گزینهها به شمار میآید و عملکرد و کارایی SQL توزیعشده را برای پاسخ به چالشهای دادههای ناشی از هوش مصنوعی عاملی بهبود میبخشد. در نهایت، هدف این است که فناوری لازم برای مقیاسبندی همزمان دسترسی به دادههای برداری و سنتی فراهم شود.