دیتابریکس، در نشست سالانه Data + AI Summit خود، از تصمیم به متنباز کردن چارچوب اصلی ETL خود به نام Apache Spark Declarative Pipelines خبر داد. این اقدام به منظور در دسترس قرار دادن این فناوری برای کل جامعه Apache Spark در نسخههای آینده انجام شده است. چارچوب مذکور که در ابتدا با نام Delta Live Tables (DLT) در سال 2022 معرفی شد، به تیمها کمک میکند تا خط لولههای دادهای قابل اعتماد و مقیاسپذیر را بهصورت انتها به انتها بسازند و بهرهبرداری کنند.
این حرکت دیتابرکس نشاندهنده تمایل این شرکت برای ترویج اکوسیستمهای باز و همچنین تلاش برای رقابت با رقیب خود، Snowflake، است که اخیراً سرویس Openflow خود را برای یکپارچهسازی دادهها رونمایی کرده است. در حالی که Snowflake از Apache NiFi برای متمرکز کردن دادهها استفاده میکند، دیتابریکس فناوری مهندسی خط لوله خود را بهصورت متنباز ارائه میدهد تا کاربران بتوانند آن را در هر مکانی که Apache Spark پشتیبانی میشود، اجرا کنند.
معمولاً مهندسی داده با سه چالش اصلی همراه است: نگارش پیچیده خط لوله، بار عملیاتی دستی و نیاز به نگهداری سیستمهای جداگانه برای بارهای کاری دستهای و جریانی. با استفاده از Spark Declarative Pipelines، مهندسان میتوانند با استفاده از SQL یا Python توصیف کنند که خط لوله آنها چه کارهایی باید انجام دهد و Apache Spark وظیفه اجرای آن را بر عهده میگیرد. این چارچوب بهطور خودکار وابستگیهای بین جداول را پیگیری میکند و وظایف عملیاتی مانند اجرای موازی، نقاط چک و بازیابی در محیطهای تولید را مدیریت میسازد.
مایکل آرمبروست، مهندس نرمافزار برجسته دیتابریکس، در گفتوگویی اشاره کرد: «شما مجموعهای از دادهها و جریانهای دادهای را اعلام میکنید و Apache Spark بهترین برنامه اجرایی را تعیین میکند.» این چارچوب از دادههای دستهای، جریانی و نیمهساختیافته پشتیبانی میکند و مهندسان کافی است که پردازشهای همزمان و دورهای را از طریق یک API واحد تعریف کنند.
این نوآوری جهتگیری جدیدی در سادگی Apache Spark است، به طوری که از زمان معرفی RDDs، Spark SQL، پردازش جریانی با Structured Streaming و ذخیرهسازی ابر به صورت تراکنشی با Delta Lake، اکنون دیتابریکس در تلاش است تا خط لولههای انتها به انتها را به سادگی قابل فهمی برای کاربران تبدیل کند.
نتایج استفاده از این چارچوب در شرکتهای مختلف مانند Block و Navy Federal Credit Union نشاندهنده کاهش زمان توسعه و نگهداری به میزان چشمگیری است. به طوری که Block موفق به کاهش زمان توسعه بیش از 90 درصدی شده و Navy Federal Credit Union زمان نگهداری خط لولههای خود را 99 درصد کاهش داده است.
همچنین، این طرح متنباز در کنار نسخه تجاری Databricks Lakeflow Declarative Pipelines با ویژگیهای اضافی برای کسبوکارها ارائه میشود.
Apache Spark Declarative Pipelines بهزودی در کدبیس Apache Spark گنجانده خواهد شد و زمان دقیق انتشار آن هنوز مشخص نیست. آرمبروست با اشاره به پتانسیل بالای این Pipedlines گفت: «ما از آغاز راه به متنباز کردن چارچوب خط لوله خود هیجانزده بودیم و با آموختن از تجربیات گذشته، اکنون آمادهایم تا این فناوری را به جامعه ارائه دهیم.»