انویدیا از عناصر جدید پلتفرم Run:ai شامل برنامهریز KAI Scheduler به صورت متنباز رونمایی کرد
شرکت انویدیا در جدیدترین اعلامیه خود، از اقدام جدیدی پرده برداشت که عناصر جدیدی از پلتفرم Run:ai از جمله برنامهریز پیشرفته KAI Scheduler تحت مجوز Apache 2.0 به صورت متنباز در دسترس قرار گرفتهاند. این ابزار که بهصورت بومی در بستر Kubernetes برای زمانبندی GPU طراحی شده است، اکنون به جامعه متنباز ارائه شده و همچنان به عنوان بخشی از پلتفرم Run:ai انویدیا عرضه میشود.
انویدیا اظهار داشت که این اقدام نشاندهنده تعهد این شرکت به رشد زیرساختهای متنباز و کاربردهای سازمانی در حوزه هوش مصنوعی است. این ابتکار نهتنها ایجاد جامعهای فعال و مشارکتی را تشویق میکند، بلکه امکان مشارکت، بازخورد و نوآوریهای بیشتر را فراهم میآورد.
قابلیتهای فنی KAI Scheduler
در پست منتشرشده توسط کارشناسان انویدیا، رونن دار و اکین کارابولوت، جزئیات فنی KAI Scheduler به همراه ارزش افزوده آن برای تیمهای فناوری اطلاعات (IT) و یادگیری ماشین (ML) توضیح داده شده است. آنها فرآیند چرخه زمانبندی و عملکرد این ابزار را بررسی کردهاند. مدیریت حجم کاری هوش مصنوعی بر روی GPU و CPU چالشهای زیادی دارد که برنامهریزهای سنتی نمیتوانند به طور کامل پاسخگوی آنها باشند. ابزار KAI Scheduler بهطور خاص برای حل چنین مشکلاتی توسعه یافته است، از جمله:
- مدیریت تقاضاهای متغیر GPU
- کاهش زمان انتظار برای دسترسی به منابع محاسباتی
- تضمین منابع یا تخصیص GPU
- اتصال یکپارچه ابزارها و چارچوبهای هوش مصنوعی
پاسخ به چالشهای مدیریت منابع هوش مصنوعی
بارکاری هوش مصنوعی میتواند به سرعت تغییر کند؛ به عنوان مثال، ممکن است تنها به یک GPU برای کارهای تعاملی مانند بررسی دادهها نیاز داشته باشید و سپس به ناگهان به تعداد زیادی GPU برای آموزش توزیعشده یا انجام آزمایشهای متعدد نیاز پیدا کنید. برنامهریزهای سنتی در مدیریت چنین تغییرات سریع ناکام میمانند.
KAI Scheduler با استفاده از رویکردی پویا، به صورت لحظهای مقادیر سهم عادلانه GPU را محاسبه کرده و محدودیتها و سهمیهها را مطابق با تقاضای کنونی بارکاری تنظیم میکند. این فرایند باعث بهرهوری بهینه منابع GPU میشود و نیاز به دخالت دستی مدیران کاهش مییابد.
کاهش زمان انتظار و افزایش بهرهوری برای مهندسان یادگیری ماشین
برای مهندسان یادگیری ماشین، مدیریت زمان بسیار مهم است. KAI Scheduler با ترکیب زمانبندی گروهی (Gang Scheduling)، اشتراک GPU و سیستم صفبندی سلسلهمراتبی، امکان ثبت دستهای کارها را فراهم میکند، بهطوری که وظایف به صورت خودکار و مطابق با اولویتها و عدالت اجرا شوند.
استراتژیهای کلیدی برای بهرهوری بالاتر منابع
این ابزار از دو استراتژی موثر برای مدیریت بارهای کاری GPU و CPU بهره میبرد:
- Bin-packing و Consolidation: این روش با کاهش پراکندگی منابع، کوچکترین وظایف را در GPUها و CPUهای استفادهنشده قرار داده و بهینهسازی بارکاری گرهها را مدیریت میکند.
- Spreading: این استراتژی وظایف را به صورت یکنواخت در گرهها یا GPUها و CPUهای موجود توزیع کرده و بار کاری هر گره را به حداقل رسانده و دسترسی به منابع را به حداکثر میرساند.
جلوگیری از استفاده بیشازحد و بهبود کارایی منابع
در خوشههای مشترک، برخی کاربران ممکن است منابع بیشتری نسبت به نیاز واقعی رزرو کنند، که این موضوع منجر به عدم استفاده کامل از GPUها میشود. KAI Scheduler با تضمین اختصاص منابع به هر تیم و تخصیص پویا منابع بدون استفاده به دیگر کارها، از بروز چنین مشکلاتی جلوگیری و بهرهوری کلی خوشه را افزایش میدهد.
اتصال سادهتر به ابزارها و چارچوبهای هوش مصنوعی
اتصال بارهای کاری هوش مصنوعی به چارچوبهایی مانند Kubeflow، Ray، Argo، و Training Operator میتواند پیچیدگیهای زیادی ایجاد کند. KAI Scheduler با قابلیت Podgrouper داخلی خود، بهطور خودکار این ابزارها و چارچوبها را شناسایی کرده و بارهای کاری را به آنها متصل میکند. این ویژگی زمان توسعه را کاهش و فرآیند نمونهسازی را تسریع میکند.
برای دسترسی به آخرین اخبار و نوآوریهای حوزه فناوری، بینا ویرا را دنبال کنید!