نویریا مدل کوچک زبان Nemotron‑Nano‑9B‑v2 را معرفی کرد؛ تعادل بین دقت و مقرونبهصرفگی در استقرار سازمانی
انودیا (NVIDIA) از نسخه کوچکتر و بهینهشده خانواده Nemotron رونمایی کرد: Nemotron‑Nano‑9B‑v2، یک مدل زبان کوچک (SLM) با 9 میلیارد پارامتر که بهمنظور استقرار روی یک کارت گرافیک Nvidia A10 طراحی شده و در بنچمارکهای منتخب، عملکرد برجستهای نشان میدهد. این مدل علاوه بر اندازه مناسب برای محیطهای محصولی، قابلیتهای کنترلپذیر جدیدی مانند فعال/غیرفعالسازی روند «استدلال» و مکانیزم «بودجه تفکر» برای مدیریت توکنهای داخلی را ارائه میکند که توازن بین دقت و تأخیر را برای توسعهدهندگان راحتتر میسازد.
معماری هیبریدی Mamba‑Transformer و مزایا
Nemotron‑Nano‑9B‑v2 بر پایه خانواده Nemotron‑H ساخته شده است که از معماری هیبریدی Mamba‑Transformer بهره میبرد. برخلاف مدلهای صرفاً Transformer که با افزایش طول توالیها نیاز بالایی به حافظه و محاسبات پیدا میکنند، معماری Mamba لایههایی از نوع State Space Models (SSM) را وارد میکند. این لایهها میتوانند توالیهای بسیار طولانی را با هزینه خطی در حافظه پردازش کنند و بهطور کلی:
– توان عملیاتی را در پردازش محتوای بلند تا 2–3 برابر افزایش میدهند.
– بار حافظه و محاسبات را نسبت به استفاده کامل از attention کاهش میدهند.
انودیا همچنین اعلام کرده که با هرس (pruning) از 12B به 9B، مدل را برای اجرا روی A10 بهینه کرده؛ مطابق گفته Oleksii Kuchiaev، این تغییر به پردازش بچهای بزرگتر و سرعت تا 6 برابر نسبت به مدلهای ترنسفورمر مشابه منجر میشود.
قابلیتهای کنترلِ استدلال: toggle و thinking budget
ویژگی متمایز Nemotron‑Nano‑9B‑v2 امکان تولید یک «اثر استدلالی» (reasoning trace) پیش از پاسخ نهایی است، اما توسعهدهندگان میتوانند با توکنهای کنترلی ساده مانند /think یا /no_think این رفتار را روشن یا خاموش کنند. علاوه بر این، قابلیت «بودجه تفکر» به صورت زمان اجرا امکان محدود کردن تعداد توکنهایی را که مدل در استدلال داخلی مصرف میکند فراهم میآورد. هدف این قابلیتها ارائه اهرمی برای بهینهسازی میان دقت و تاخیر در کاربردهایی نظیر پشتیبانی مشتری یا عاملهای خودران است.
پشتیبانی زبانی و کاربردها
Nemotron‑Nano‑9B‑v2 چندزبانه است و از زبانهای انگلیسی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی و ژاپنی پشتیبانی میکند؛ در توصیفات گستردهتر نیز کرهای، پرتغالی، روسی و چینی ذکر شدهاند. این مدل برای پیروی از دستورالعملها (instruction following) و تولید کد مناسب طراحی شده و برای محیطهای سازمانی با محدودیتهای زیرساختی یک گزینه عملی به شمار میآید.
کارایی و نتایج بنچمارکها
انودیا نتایج ارزیابی Nemotron‑Nano‑9B‑v2 را در حالت «استدلال فعال» گزارش کرده است. برخی از معیارهای ثبتشده شامل موارد زیر است:
– AIME25: 72.1%
– MATH500: 97.8%
– GPQA: 64.0%
– LiveCodeBench: 71.1%
– IFEval (instruction following): 90.3%
– RULER 128K (متن بلند): 78.9%
در مقایسه با مدلهای متنباز کوچکمقیاس، Nemotron‑Nano‑9B‑v2 در مجموع دقت بالاتری نسبت به Qwen3‑8B نشان داده است. انودیا همچنین نمودارهایی از رابطه دقت نسبت به «بودجه استدلال» منتشر کرده که نشان میدهد افزایش توکنهای اختصاصیافته به استدلال، چگونه عملکرد را بهبود میبخشد — امری که به توسعهدهندگان کمک میکند کیفیت را در مقابل تأخیر بهینه کنند.
دادههای آموزشی و روش تقویت استدلال
این مدل از ترکیبی از دادههای منتخب، وبسورسها و دادههای سنتتیک برای پیشآموزش استفاده کرده است؛ مجموعهها شامل متن عمومی، کد، ریاضیات، علوم، اسناد حقوقی و مالی و همچنین دادههای سوالوپاسخ جهت تنظیم رفتار است. انودیا تأیید کرده که از نمونههای «ردیابی استدلال» (reasoning traces) تولیدشده توسط مدلهای بزرگتر بهصورت سنتتیک برای تقویت عملکرد در مسألههای پیچیده بهره برده است.
دسترسپذیری و مجوز
Nemotron‑Nano‑9B‑v2 و دادههای پیشآموزش آن هماکنون روی Hugging Face و از طریق کاتالوگ مدل انودیا دردسترس هستند. این نسخه تحت Nvidia Open Model License (بهروزرسانیشده در ژوئن 2025) منتشر شده که رویکردی نسبتاً آزاد و سازگار با نیازهای سازمانی دارد: مدلها از ابتدا برای استفاده تجاری مجاز اعلام شدهاند، توسعهدهندگان میتوانند مشتقات تولید و توزیع کنند و انودیا ادعای مالکیت بر خروجیهای تولیدشده توسط مدل ندارد. نکته مهم این است که برخلاف برخی مجوزهای چندلایه دیگر، این مجوز شامل شرط پرداخت بر اساس مقیاس یا درآمد مستقیم نیست؛ با این حال، تعهد به رعایت الزامات ایمنی، انتساب و سازگاری قوانین جهت استقرار مسئولانه لازم است.
معیارهای انتخاب برای تیمهای سازمانی
Nemotron‑Nano‑9B‑v2 بهطور ویژه برای توسعهدهندگانی طراحی شده که به ترکیب قابلیت استدلال و کارایی در استقرار با منابع محدود نیاز دارند. مزیتهای کلیدی برای اتخاذ این مدل عبارتند از:
– امکان اجرا روی یک کارت Nvidia A10، کاهش هزینه سختافزار.
– قابلیت کنترل رفتار استدلالی برای مدیریت دقیق کیفیت و تأخیر.
– مجوز نسبتاً منعطف مناسب برای کاربردهای تجاری و تولیدی.
– عملکرد رقابتی در بنچمارکهای ریاضی، برنامهنویسی و متن بلند.
نتیجهگیری
با معرفی Nemotron‑Nano‑9B‑v2، انودیا تمرکز خود را بر افزایش کارایی و کنترلپذیری مدلهای زبان حفظ کرده است. ترکیب معماری هیبریدی Mamba‑Transformer، مکانیزمهای جدید برای مدیریت استدلال و انتشار تحت مجوزی که استفاده تجاری را تسهیل میکند، این مدل را به گزینهای جذاب برای سازمانهایی تبدیل میکند که به دنبال استقرار مدلهای هوش مصنوعی با هزینه و تأخیر معقولاند. انتشار روی Hugging Face و کاتالوگ انودیا نیز دسترسی به آزمایش و یکپارچهسازی آن در پروژههای واقعی را سادهتر میسازد.
