نویسنده: مرکز نوآوری هوش مصنوعی بینا ویرا (binavira.ir)
انتشار مدل جدید زبان بزرگ Llama-3.1-Nemotron-Ultra-253B توسط انویدیا با قابلیتهای پیشرفته در پردازش دادههای عظیم
انویدیا، یکی از پیشروترین شرکتها در زمینه هوش مصنوعی و پردازش گرافیکی، به تازگی مدل زبان بزرگ جدیدی به نام «Llama-3.1-Nemotron-Ultra-253B» را معرفی و به صورت متن باز منتشر کرده است. این مدل پیشرفته، که بر پایه مدل قدیمیتر Llama-3.1 شرکت Meta توسعه یافته، قابلیتهای چشمگیری در انجام وظایف پیچیده مرتبط با هوش مصنوعی را نشان داده است.
عملکرد بیرقیب در بنچمارکهای تخصصی
مدل Llama-3.1-Nemotron-Ultra-253B با 253 میلیارد پارامتر، به طور ویژه برای انجام وظایف استنتاج، پاسخگویی به دستورات، و کاربردهای مرتبط با دستیار هوش مصنوعی طراحی شده است. این مدل جدید توانسته در آزمونهای تخصصی مانند GPQA، AIME25، و LiveCodeBench عملکردی قابلملاحظه از خود نشان دهد و حتی برخی از رقبای مطرح مانند مدل DeepSeek R1 را پشت سر بگذارد.
برای نمونه، مدل Llama-3.1-Nemotron-Ultra-253B در حالت فعالسازی قابلیت استنتاج (Reasoning Mode)، در آزمون MATH500 توانست دقت خود را از 80.40% به 97.00% افزایش دهد؛ این در حالی است که در بنچمارک AIME25، دقت آن از 16.67% به 72.50% رسید. همچنین در آزمون LiveCodeBench که مرتبط با وظایف کدنویسی است، عملکرد بهبود یافته و دقت از 29.03% به 66.31% رسید.
توجه ویژه به بهینهسازی معماری و کاهش هزینههای محاسباتی
انویدیا، به منظور کاهش نیازهای منابع سختافزاری، مدل جدید خود را با استفاده از فرآیند «جستجوی معماری عصبی» (Neural Architecture Search) طراحی کرده است. این معماری دارای تغییرات ساختاری مهمی از جمله حذف لایههای توجه غیرضروری، استفاده از شبکههای فیدفوروارد ترکیبی، و نسبتهای متغیر فشردهسازی است. به لطف این تغییرات، مدل امکان اجرا بر روی یک گره GPU از نوع H100 را با کاهش قابلتوجه در مصرف حافظه و منابع محاسباتی فراهم کرده است.
علاوه بر این، سازگاری کامل این مدل با معماریهای سختافزاری B100 و Hopper انویدیا، به همراه توانایی در پردازش دادهها با دقت BF16 و FP8، نشانگر تمرکز انویدیا بر کاهش هزینهها و افزایش بهرهوری در محیطهای مرکز داده است.
رویکرد پیشرفته پسآموزش و تطبیقپذیری بالا
برای دستیابی به دقت بهتر، انویدیا مدل Llama-3.1-Nemotron-Ultra-253B را تحت فرآیند چندمرحلهای پسآموزش قرار داد. این فرآیند شامل تنظیم نظارتی در حوزههای مختلف از جمله ریاضی، تولید کد، مکالمه و استفاده از ابزارها بود. همچنین، مدل از روش «بهینهسازی سیاست نسبی گروهی» (GRPO) استفاده کرده تا توانایی پیروی از دستورات و عملکرد استنتاجی بهبود یابد.
منابع آموزشی و دادههای متنوع
در طول فرآیند آموزش، مدل از مجموعه دادههایی مانند FineWeb، Buzz-V1.2 و Dolma بهره گرفته است. همچنین ترکیبی از دادههای عمومی و تولید مصنوعی برای طراحی سوالات و پاسخها مورد استفاده قرار گرفت تا مدل بتواند بین حالتهای مختلف پردازش خود، تمایز ایجاد کند.
مشخصات و کاربردها
مدل Llama-3.1-Nemotron-Ultra-253B قابلیت پردازش دنباله ورودی و خروجی تا 128,000 توکن را دارد و از طریق استفاده از لایبرری Hugging Face Transformers مدیریت میشود. این مدل میتواند برای وظایف متنوعی مانند توسعه چتبات، ایجاد عاملهای هوش مصنوعی، تولید کد و بازیابی اطلاعات مورد استفاده قرار گیرد.
از قابلیتهای برجسته میتوان به پشتیبانی از زبانهای متعدد از جمله انگلیسی، آلمانی، فرانسوی، اسپانیایی و حتی زبانهایی مانند هندی و تایلندی اشاره کرد.
تعهد به توسعه مسئولانه AI
انویدیا مدل جدید خود را تحت “مجوز متن باز انویدیا” و با توجه به “توافقنامه جامعه Llama 3.1” منتشر کرده است. این شرکت توصیه کرده که تیمها و سازمانها پیش از استفاده از مدل، ارزیابی دقیقی از جنبههای ایمنی، انطباق، و حذف تعصب در مدل انجام دهند.
اولکسی کوچائف، مدیر بخش پسآموزش مدلهای AI در انویدیا، با انتشار در شبکه اجتماعی X اظهار داشت که هدف این مدل، ارائه قابلیتهایی پیشرفته با هزینه منطقی برای تیمهای توسعهدهنده بوده است.
برای کسب اطلاعات بیشتر و دانلود این مدل، به پلتفرم Hugging Face مراجعه کنید.