دیتابریکس، در نشست سالانه Data + AI Summit خود، از تصمیم به متن‌باز کردن چارچوب اصلی ETL خود به نام Apache Spark Declarative Pipelines خبر داد. این اقدام به منظور در دسترس قرار دادن این فناوری برای کل جامعه Apache Spark در نسخه‌های آینده انجام شده است. چارچوب مذکور که در ابتدا با نام Delta Live Tables (DLT) در سال 2022 معرفی شد، به تیم‌ها کمک می‌کند تا خط لوله‌های داده‌ای قابل اعتماد و مقیاس‌پذیر را به‌صورت انتها به انتها بسازند و بهره‌برداری کنند.

این حرکت دیتا‌برکس نشان‌دهنده تمایل این شرکت برای ترویج اکوسیستم‌های باز و همچنین تلاش برای رقابت با رقیب خود، Snowflake، است که اخیراً سرویس Openflow خود را برای یکپارچه‌سازی داده‌ها رونمایی کرده است. در حالی که Snowflake از Apache NiFi برای متمرکز کردن داده‌ها استفاده می‌کند، دیتابریکس فناوری مهندسی خط لوله خود را به‌صورت متن‌باز ارائه می‌دهد تا کاربران بتوانند آن را در هر مکانی که Apache Spark پشتیبانی می‌شود، اجرا کنند.

معمولاً مهندسی داده با سه چالش اصلی همراه است: نگارش پیچیده خط لوله، بار عملیاتی دستی و نیاز به نگهداری سیستم‌های جداگانه برای بارهای کاری دسته‌ای و جریانی. با استفاده از Spark Declarative Pipelines، مهندسان می‌توانند با استفاده از SQL یا Python توصیف کنند که خط لوله آنها چه کارهایی باید انجام دهد و Apache Spark وظیفه اجرای آن را بر عهده می‌گیرد. این چارچوب به‌طور خودکار وابستگی‌های بین جداول را پیگیری می‌کند و وظایف عملیاتی مانند اجرای موازی، نقاط چک و بازیابی در محیط‌های تولید را مدیریت می‌سازد.

مایکل آرمبروست، مهندس نرم‌افزار برجسته دیتابریکس، در گفت‌وگویی اشاره کرد: «شما مجموعه‌ای از داده‌ها و جریان‌های داده‌ای را اعلام می‌کنید و Apache Spark بهترین برنامه اجرایی را تعیین می‌کند.» این چارچوب از داده‌های دسته‌ای، جریانی و نیمه‌ساخت‌یافته پشتیبانی می‌کند و مهندسان کافی است که پردازش‌های همزمان و دوره‌ای را از طریق یک API واحد تعریف کنند.

این نوآوری جهت‌گیری جدیدی در سادگی Apache Spark است، به طوری که از زمان معرفی RDDs، Spark SQL، پردازش جریانی با Structured Streaming و ذخیره‌سازی ابر به صورت تراکنشی با Delta Lake، اکنون دیتابریکس در تلاش است تا خط لوله‌های انتها به انتها را به سادگی قابل فهمی برای کاربران تبدیل کند.

نتایج استفاده از این چارچوب در شرکت‌های مختلف مانند Block و Navy Federal Credit Union نشان‌دهنده کاهش زمان توسعه و نگهداری به میزان چشمگیری است. به طوری که Block موفق به کاهش زمان توسعه بیش از 90 درصدی شده و Navy Federal Credit Union زمان نگهداری خط لوله‌های خود را 99 درصد کاهش داده است.

همچنین، این طرح متن‌باز در کنار نسخه تجاری Databricks Lakeflow Declarative Pipelines با ویژگی‌های اضافی برای کسب‌وکارها ارائه می‌شود.

Apache Spark Declarative Pipelines به‌زودی در کد‌بیس Apache Spark گنجانده خواهد شد و زمان دقیق انتشار آن هنوز مشخص نیست. آرمبروست با اشاره به پتانسیل بالای این Pipedlines گفت: «ما از آغاز راه به متن‌باز کردن چارچوب خط لوله خود هیجان‌زده بودیم و با آموختن از تجربیات گذشته، اکنون آماده‌ایم تا این فناوری را به جامعه ارائه دهیم.»

تجزیه و تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا