نویسنده: مرکز نوآوری هوش مصنوعی بینا ویرا (binavira.ir)

انتشار مدل جدید زبان بزرگ Llama-3.1-Nemotron-Ultra-253B توسط انویدیا با قابلیت‌های پیشرفته در پردازش داده‌های عظیم

انویدیا، یکی از پیشروترین شرکت‌ها در زمینه هوش مصنوعی و پردازش گرافیکی، به تازگی مدل زبان بزرگ جدیدی به نام «Llama-3.1-Nemotron-Ultra-253B» را معرفی و به صورت متن باز منتشر کرده است. این مدل پیشرفته، که بر پایه مدل قدیمی‌تر Llama-3.1 شرکت Meta توسعه یافته، قابلیت‌های چشم‌گیری در انجام وظایف پیچیده مرتبط با هوش مصنوعی را نشان داده است.

عملکرد بی‌رقیب در بنچمارک‌های تخصصی

مدل Llama-3.1-Nemotron-Ultra-253B با 253 میلیارد پارامتر، به طور ویژه برای انجام وظایف استنتاج، پاسخ‌گویی به دستورات، و کاربردهای مرتبط با دستیار هوش مصنوعی طراحی شده است. این مدل جدید توانسته در آزمون‌های تخصصی مانند GPQA، AIME25، و LiveCodeBench عملکردی قابل‌ملاحظه از خود نشان دهد و حتی برخی از رقبای مطرح مانند مدل DeepSeek R1 را پشت سر بگذارد.

برای نمونه، مدل Llama-3.1-Nemotron-Ultra-253B در حالت فعال‌سازی قابلیت استنتاج (Reasoning Mode)، در آزمون MATH500 توانست دقت خود را از 80.40% به 97.00% افزایش دهد؛ این در حالی است که در بنچمارک AIME25، دقت آن از 16.67% به 72.50% رسید. همچنین در آزمون LiveCodeBench که مرتبط با وظایف کدنویسی است، عملکرد بهبود یافته و دقت از 29.03% به 66.31% رسید.

توجه ویژه به بهینه‌سازی معماری و کاهش هزینه‌های محاسباتی

انویدیا، به منظور کاهش نیازهای منابع سخت‌افزاری، مدل جدید خود را با استفاده از فرآیند «جستجوی معماری عصبی» (Neural Architecture Search) طراحی کرده است. این معماری دارای تغییرات ساختاری مهمی از جمله حذف لایه‌های توجه غیرضروری، استفاده از شبکه‌های فیدفوروارد ترکیبی، و نسبت‌های متغیر فشرده‌سازی است. به لطف این تغییرات، مدل امکان اجرا بر روی یک گره GPU از نوع H100 را با کاهش قابل‌توجه در مصرف حافظه و منابع محاسباتی فراهم کرده است.

علاوه بر این، سازگاری کامل این مدل با معماری‌های سخت‌افزاری B100 و Hopper انویدیا، به همراه توانایی در پردازش داده‌ها با دقت BF16 و FP8، نشانگر تمرکز انویدیا بر کاهش هزینه‌ها و افزایش بهره‌وری در محیط‌های مرکز داده است.

رویکرد پیشرفته پس‌آموزش و تطبیق‌پذیری بالا

برای دستیابی به دقت بهتر، انویدیا مدل Llama-3.1-Nemotron-Ultra-253B را تحت فرآیند چندمرحله‌ای پس‌آموزش قرار داد. این فرآیند شامل تنظیم نظارتی در حوزه‌های مختلف از جمله ریاضی، تولید کد، مکالمه و استفاده از ابزارها بود. همچنین، مدل از روش «بهینه‌سازی سیاست نسبی گروهی» (GRPO) استفاده کرده تا توانایی پیروی از دستورات و عملکرد استنتاجی بهبود یابد.

منابع آموزشی و داده‌های متنوع

در طول فرآیند آموزش، مدل از مجموعه داده‌هایی مانند FineWeb، Buzz-V1.2 و Dolma بهره گرفته است. همچنین ترکیبی از داده‌های عمومی و تولید مصنوعی برای طراحی سوالات و پاسخ‌ها مورد استفاده قرار گرفت تا مدل بتواند بین حالت‌های مختلف پردازش خود، تمایز ایجاد کند.

مشخصات و کاربردها

مدل Llama-3.1-Nemotron-Ultra-253B قابلیت پردازش دنباله ورودی و خروجی تا 128,000 توکن را دارد و از طریق استفاده از لایبرری Hugging Face Transformers مدیریت می‌شود. این مدل می‌تواند برای وظایف متنوعی مانند توسعه چت‌بات، ایجاد عامل‌های هوش مصنوعی، تولید کد و بازیابی اطلاعات مورد استفاده قرار گیرد.

از قابلیت‌های برجسته می‌توان به پشتیبانی از زبان‌های متعدد از جمله انگلیسی، آلمانی، فرانسوی، اسپانیایی و حتی زبان‌هایی مانند هندی و تایلندی اشاره کرد.

تعهد به توسعه مسئولانه AI

انویدیا مدل جدید خود را تحت “مجوز متن باز انویدیا” و با توجه به “توافق‌نامه جامعه Llama 3.1” منتشر کرده است. این شرکت توصیه کرده که تیم‌ها و سازمان‌ها پیش از استفاده از مدل، ارزیابی دقیقی از جنبه‌های ایمنی، انطباق، و حذف تعصب در مدل انجام دهند.

اولکسی کوچائف، مدیر بخش پس‌آموزش مدل‌های AI در انویدیا، با انتشار در شبکه اجتماعی X اظهار داشت که هدف این مدل، ارائه قابلیت‌هایی پیشرفته با هزینه منطقی برای تیم‌های توسعه‌دهنده بوده است.

برای کسب اطلاعات بیشتر و دانلود این مدل، به پلتفرم Hugging Face مراجعه کنید.

تبدیل متن‌های فارسی به صوت

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا