انویدیا Scheduler Run:ai را برای همکاری بیشتر جامعه به صورت متن‌باز ارائه کرد

انویدیا از عناصر جدید پلتفرم Run:ai شامل برنامه‌ریز KAI Scheduler به‌ صورت متن‌باز رونمایی کرد

شرکت انویدیا در جدیدترین اعلامیه خود، از اقدام جدیدی پرده برداشت که عناصر جدیدی از پلتفرم Run:ai از جمله برنامه‌ریز پیشرفته KAI Scheduler تحت مجوز Apache 2.0 به‌ صورت متن‌باز در دسترس قرار گرفته‌اند. این ابزار که به‌صورت بومی در بستر Kubernetes برای زمان‌بندی GPU طراحی شده است، اکنون به جامعه متن‌باز ارائه شده و همچنان به‌ عنوان بخشی از پلتفرم Run:ai انویدیا عرضه می‌شود.

انویدیا اظهار داشت که این اقدام نشان‌دهنده تعهد این شرکت به رشد زیرساخت‌های متن‌باز و کاربردهای سازمانی در حوزه هوش مصنوعی است. این ابتکار نه‌تنها ایجاد جامعه‌ای فعال و مشارکتی را تشویق می‌کند، بلکه امکان مشارکت، بازخورد و نوآوری‌های بیشتر را فراهم می‌آورد.

قابلیت‌های فنی KAI Scheduler

در پست منتشرشده توسط کارشناسان انویدیا، رونن دار و اکین کارابولوت، جزئیات فنی KAI Scheduler به‌ همراه ارزش افزوده آن برای تیم‌های فناوری اطلاعات (IT) و یادگیری ماشین (ML) توضیح داده شده است. آن‌ها فرآیند چرخه زمان‌بندی و عملکرد این ابزار را بررسی کرده‌اند. مدیریت حجم کاری هوش مصنوعی بر روی GPU و CPU چالش‌های زیادی دارد که برنامه‌ریزهای سنتی نمی‌توانند به طور کامل پاسخگوی آن‌ها باشند. ابزار KAI Scheduler به‌طور خاص برای حل چنین مشکلاتی توسعه یافته است، از جمله:

مدیریت تقاضاهای متغیر GPU
کاهش زمان انتظار برای دسترسی به منابع محاسباتی
تضمین منابع یا تخصیص GPU
اتصال یکپارچه ابزارها و چارچوب‌های هوش مصنوعی

پاسخ به چالش‌های مدیریت منابع هوش مصنوعی

بارکاری هوش مصنوعی می‌تواند به سرعت تغییر کند؛ به عنوان مثال، ممکن است تنها به یک GPU برای کارهای تعاملی مانند بررسی داده‌ها نیاز داشته باشید و سپس به ناگهان به تعداد زیادی GPU برای آموزش توزیع‌شده یا انجام آزمایش‌های متعدد نیاز پیدا کنید. برنامه‌ریزهای سنتی در مدیریت چنین تغییرات سریع ناکام می‌مانند.

KAI Scheduler با استفاده از رویکردی پویا، به ‌صورت لحظه‌ای مقادیر سهم عادلانه GPU را محاسبه کرده و محدودیت‌ها و سهمیه‌ها را مطابق با تقاضای کنونی بارکاری تنظیم می‌کند. این فرایند باعث بهره‌وری بهینه منابع GPU می‌شود و نیاز به دخالت دستی مدیران کاهش می‌یابد.

کاهش زمان انتظار و افزایش بهره‌وری برای مهندسان یادگیری ماشین

برای مهندسان یادگیری ماشین، مدیریت زمان بسیار مهم است. KAI Scheduler با ترکیب زمان‌بندی گروهی (Gang Scheduling)، اشتراک GPU و سیستم صف‌بندی سلسله‌مراتبی، امکان ثبت دسته‌ای کارها را فراهم می‌کند، به‌طوری که وظایف به‌ صورت خودکار و مطابق با اولویت‌ها و عدالت اجرا شوند.

استراتژی‌های کلیدی برای بهره‌وری بالاتر منابع

این ابزار از دو استراتژی موثر برای مدیریت بارهای کاری GPU و CPU بهره می‌برد:

Bin-packing و Consolidation: این روش با کاهش پراکندگی منابع، کوچک‌ترین وظایف را در GPU‌ها و CPU‌های استفاده‌نشده قرار داده و بهینه‌سازی بارکاری گره‌ها را مدیریت می‌کند.
Spreading: این استراتژی وظایف را به ‌صورت یکنواخت در گره‌ها یا GPU‌ها و CPU‌های موجود توزیع کرده و بار کاری هر گره را به حداقل رسانده و دسترسی به منابع را به حداکثر می‌رساند.

جلوگیری از استفاده بیش‌ازحد و بهبود کارایی منابع

در خوشه‌های مشترک، برخی کاربران ممکن است منابع بیشتری نسبت به نیاز واقعی رزرو کنند، که این موضوع منجر به عدم استفاده کامل از GPU‌ها می‌شود. KAI Scheduler با تضمین اختصاص منابع به هر تیم و تخصیص پویا منابع بدون استفاده به دیگر کارها، از بروز چنین مشکلاتی جلوگیری و بهره‌وری کلی خوشه را افزایش می‌دهد.

اتصال ساده‌تر به ابزارها و چارچوب‌های هوش مصنوعی

اتصال بارهای کاری هوش مصنوعی به چارچوب‌هایی مانند Kubeflow، Ray، Argo، و Training Operator می‌تواند پیچیدگی‌های زیادی ایجاد کند. KAI Scheduler با قابلیت Podgrouper داخلی خود، به‌طور خودکار این ابزارها و چارچوب‌ها را شناسایی کرده و بارهای کاری را به آن‌ها متصل می‌کند. این ویژگی زمان توسعه را کاهش و فرآیند نمونه‌سازی را تسریع می‌کند.

برای دسترسی به آخرین اخبار و نوآوری‌های حوزه فناوری، بینا ویرا را دنبال کنید!

دستیار هوش مصنوعی