آمازون وب سرویسز (AWS)، با هدف تقویت موقعیت خود در بازار، بهروزرسانیهای جدیدی به پلتفرم یادگیری ماشین و آموزش مدلهای هوش مصنوعی خود، SageMaker، اضافه کرده است. این بهروزرسانیها شامل قابلیتهای جدید برای مشاهده عملکرد، محیطهای کدنویسی متصل و مدیریت عملکرد خوشههای GPU میشود. اما AWS همچنان با رقابتهای شدید از سوی گوگل و مایکروسافت مواجه است که ویژگیهای متعددی را برای تسریع آموزش و استنتاج هوش مصنوعی ارائه میدهند.
SageMaker که در سال 2024 به عنوان یک مرکز یکپارچه برای ادغام منابع داده و دسترسی به ابزارهای یادگیری ماشین توسعه یافته است، به زودی ویژگیهایی را اضافه خواهد کرد که به مشتریان AWS امکان میدهد علت کندی عملکرد مدلها را شناسایی کنند و کنترل بیشتری بر روی مقدار توان محاسباتی تخصیصیافته برای توسعه مدل داشته باشند. از دیگر قابلیتهای جدید میتوان به اتصال محیطهای توسعه یکپارچه محلی (IDE) به SageMaker اشاره کرد تا پروژههای هوش مصنوعی که به صورت محلی نوشته شدهاند، به راحتی در این پلتفرم مستقر شوند.
انکور مهروآ، مدیر کل SageMaker، در مصاحبهای با وبسایت VentureBeat گفت که بسیاری از این بهروزرسانیها از بازخورد مشتریان سرچشمه میگیرد. او مطرح کرد: “یکی از چالشهایی که مشتریان ما در توسعه مدلهای هوش مصنوعی نسل جدید با آن مواجه بودند، این است که وقتی مشکلی پیش میآید یا نتیجه مطابق انتظار نیست، شناسایی اختلال در لایههای مختلف سیستم بسیار دشوار میشود.”
قابلیتهای نظارت بر SageMaker HyperPod به مهندسان این امکان را میدهد که لایههای مختلف سیستم، مانند لایه محاسباتی یا لایه شبکه، را بررسی کنند. اگر مشکلی پیش بیاید یا مدلها کند شوند، SageMaker میتواند هشدارهایی ارائه دهد و دادههای مربوط به عملکرد را در یک داشبورد منتشر کند. مهروآ به چالشی واقعی اشاره کرد که تیم خود در هنگام آموزش مدلهای جدید با آن روبرو بود؛ جایی که کد آموزش به پردازشهای GPU فشار وارد کرده و باعث تغییرات دما شده بود. او اظهار داشت که بدون ابزارهای پیشرفته کنونی، شناسایی منبع مشکل ممکن است هفتهها به طول بینجامد.
SageMaker قبلاً دو روش برای آموزش و اجرای مدلها در اختیار توسعهدهندگان هوش مصنوعی قرار داده بود و به توسعه دهندگان این امکان را میداد تا از IDEهای کاملاً مدیریتشده مانند Jupyter Lab یا Code Editor استفاده کنند. با توجه به اینکه بسیاری از مهندسان تمایل به استفاده از IDEهای محلی خود دارند، AWS به آنها این امکان را داده است که کد خود را بر روی سیستمهای خود اجرا کنند. اما مهروآ توضیح داد که این روش به معنی آن بود که مدلهای نوشته شده به صورت محلی فقط بر روی همان سیستمها اجرا میشوند و در صورت نیاز به مقیاسگذاری، مشکلاتی به همراه میآورد.
AWS همچنین قابلیت جدید اجرای امنیتی از راه دور را برای مشتریان فراهم کرده است تا بتوانند با IDE مورد علاقه خود، چه به صورت محلی و چه مدیریت شده، به SageMaker متصل شوند. “این قابلیت به آنها اجازه میدهد در صورت تمایل، به توسعه محلی ادامه دهند و از مزایای مقیاسپذیری SageMaker در حین اجرای وظایف بهرهبرداری کنند.”
در دسامبر 2023، AWS SageMaker HyperPod را راهاندازی کرد تا به مشتریان کمک کند خوشههای سرور برای آموزش مدلها را مدیریت کنند. مشابه ارائهدهندگان دیگری مانند CoreWeave، HyperPod به مشتریان SageMaker این امکان را میدهد تا قدرت محاسباتی بلااستفاده را به محلهای مورد نظر خود هدایت کنند. HyperPod میداند که چه زمانی باید استفاده از GPU را بر اساس الگوهای تقاضا برنامهریزی کند و به سازمانها کمک میکند منابع و هزینههای خود را بهطور مؤثری تعادل دهند.
AWS میگوید که بسیاری از مشتریان به همین خدمات برای استنتاج نیز نیاز دارند، زیرا بسیاری از وظایف استنتاج در طول روز که مردم از مدلها و برنامهها استفاده میکنند، انجام میشود، در حالی که آموزش عموماً در ساعات غیر شلوغ برنامهریزی میشود. مهروآ اشاره کرد که حتی در دنیای استنتاج، توسعهدهندگان میتوانند وظایف استنتاجی که HyperPod باید روی آنها تمرکز کند را اولویتبندی کنند.
علاوه بر SageMaker، AWS همچنین Bedrock را ارائه میدهد که پلتفرمی بهطور خاص برای ساخت برنامهها و عاملها طراحی شده است. SageMaker سالهاست که وجود دارد و در ابتدا به عنوان ابزاری برای اتصال ابزارهای مختلف یادگیری ماشین به دریاچههای داده فعالیت میکرد. با آغاز رونق هوش مصنوعی تولیدی، مهندسان هوش مصنوعی از SageMaker برای کمک به آموزش مدلهای زبانی استفاده کردند.
با وجود اینکه آمازون ممکن است مدلهای بنیادین جذابتری را در مقایسه با رقبای خود مانند گوگل و مایکروسافت ارائه ندهد، اما AWS بیشتر بر ارائه زیرساختهای اساسی برای شرکتها به منظور ساخت مدلها، برنامهها یا عاملهای هوش مصنوعی تمرکز دارد. بهروزرسانیهای جدیدی که افتتاح این پلتفرمها را راحتتر میسازد، همیشه مورد توجه کاربران خواهد بود و در آینده میتواند نقش مهمی در تسریع روند توسعه هوش مصنوعی ایفا کند.