Nous Research مدل متنباز جدید خود «Hermes 4» را منتشر کرد؛ استدلال شفاف و کنترل کامل برای کاربر
Nous Research، استارتاپ کمسروصدا اما تأثیرگذار در جنبش هوش مصنوعی متنباز، بهصورت رسمی خانواده مدلهای زبانی بزرگ Hermes 4 را منتشر کرد. این مجموعه که با هدف ارائه عملکردی در سطح مدلهای اختصاصی و در عین حال بیشترین امکان کنترل کاربر طراحی شده، بحثهای اصلی حول اختیار دسترسی به قابلیتهای پیشرفته هوش مصنوعی و مرزهای ایمنی و سانسور را تشدید کرده است.
خلاصه مهمترین ویژگیها
– طراحی متنباز: وزن مدلها بهصورت آزاد روی Hugging Face قابل دانلود است و دسترسی از طریق API و رابط جدید Nous Chat و چند ارائهدهنده استنتاج فراهم شده است.
– استدلال هیبریدی (hybrid reasoning): امکان جابجایی بین پاسخهای سریع و فرایندهای فکری عمیقتر فراهم است؛ هنگام فعالسازی، مدل فرایند داخلی استدلال خود را داخل تگهای
– عملکرد بنچمارک: نسخه بزرگ 405 میلیارد پارامتری در حالت استدلال 96.3% در MATH-500 و 81.9% در رقابت سخت AIME’24 کسب کرده است که با بسیاری از سیستمهای اختصاصی رقابت میکند.
– معیار امتناع پاسخ (RefusalBench): Hermes 4 در حالت استدلال بالاترین امتیاز را در RefusalBench کسب کرده (57.1%)، که بهمعنای تمایل کمتر به امتناع پاسخ نسبت به مدلهایی مثل GPT‑4o (17.67%) و Claude Sonnet 4 (17%) است.
– کنترل طول استدلال: تکنیک دومرحلهای آموزش برای متوقف کردن فرآیند استدلال در حدود 30,000 توکن، تولیدهای بیشازحد طولانی را 65–79% کاهش داده و از گیرکردن مدلهای کوچک در حلقهٔ «overthinking» جلوگیری میکند.
چگونه Hermes 4 آموزش دیده است؟
Nous Research از زیرساختهای آموزشی اختصاصی استفاده کرده که حاصل چند سال تحقیق و توسعه است:
– DataForge: مولد دادهٔ مصنوعی مبتنی بر گراف که با «گردشهای تصادفی» روی گرافهای جهتدار، دادههای پیچیدهتری برای آموزش تولید میکند (مثلاً تبدیل یک مقالهٔ ویکیپدیا به متن رپ و سپس تولید پرسش و پاسخ براساس آن).
– Atropos: چارچوب متنباز یادگیری تقویتی (RL) با صدها «باشگاه تمرینی» تخصصی—ریاضی، کدنویسی، استفاده از ابزارها، نوشتههای خلاق—که از رویکرد rejection sampling برای تضمین واردشدن تنها پاسخهای تأییدشده و باکیفیت به مجموعهٔ آموزشی استفاده میکند.
– مقیاس محاسباتی: آموزش بزرگترین مدل نیاز به 192 کارت گرافیک Nvidia B200 و 71,616 ساعت GPU داشته است؛ عددی چشمگیر اما نشاندهندهٔ راهحلهای تخصصی برای رقابت با غولهای فناوری است.
– حجم دادهٔ استنتاجشده: مجموعهدادهٔ آموزش شامل حدود 3.5 میلیون نمونهٔ استدلالی و 1.6 میلیون نمونهٔ غیراستدلالی است که نشاندهندهٔ تأکید روی آموزش مبتنیبر RL بهجای دیتاستهای ثابت پرسش‑پاسخ است.
سیاست، ایمنی و کاربردهای سازمانی
Nous Research بر فلسفهٔ «کنترل کاربر» و شفافیت تاکید میکند: مدلها قابلهدایت (steerable) طراحی شدهاند تا بدون محدودیتهای سختِ سانسور شرکتی، به نحوی انعطافپذیر تنظیم یا فروموله شوند. این رویکرد برای پژوهشگران و توسعهدهندگانی که به سفارشیسازی بالا نیاز دارند جذاب است، اما همزمان بحثهای جدی دربارهٔ ریسکهای احتمالی و سوءاستفاده را برمیانگیزد. شرکت همراه با انتشار مدل، گزارش فنی مفصلی عرضه کرده که جزئیات فرایند آموزش، نتایج ارزیابی و نمونههای خروجی را بهطور بیسابقهای افشا میکند؛ اقدامی که Nous آن را استانداردی جدید در شفافیت بنچمارکینگ میداند.
محدودیتها و چالشها
– نیاز محاسباتی بالا: بهرهبرداری عملی از Hermes 4 برای کاربردهای تولیدی نیازمند منابع سختافزاری قابل توجه است.
– سهولت استفاده و قابلیت اطمینان: خدمات اختصاصی بزرگ ممکن است در برخی کاربردها کارآمدتر یا قابل اطمینانتر باشند.
– چالشهای ایمنی: آزادی بیشتر در پاسخگویی همراه با خطرات سوءاستفاده است که نیازمند گفتگوهای جدی علیرغم مزایای شفافیت است.
دستاورد کلی و اهمیت برای اکوسیستم هوش مصنوعی متنباز
Hermes 4 نمونهای بارز از پیشرفتهای فنی در حوزهٔ مدلهای متنباز است و نشان میدهد که نوآوری میتواند فراتر از شرکتهای چندملیتی بزرگ رخ دهد. تواناییهای استدلالی پیشرفته، شفافسازی زنجیرهٔ فکری و روشهای آموزشی مبتکرانه، Hermes 4 را به گزینهٔ جدیای برای پژوهشگران و تیمهای سازمانی تبدیل میکند که به سفارشیسازی و کنترل بیشتر نیاز دارند. در عین حال، این انتشار دوباره سوالهای اخلاقی و سیاستگذاری دربارهٔ مرز بین توانمندسازی کاربران و حفاظت از جامعه را مطرح میکند—سوالهایی که به نظر میرسد در ماهها و سالهای آینده محور بحث در صنعت خواهند بود.
