ByteDance مدل متن‌باز Seed-OSS-36B با زمینه ۵۱۲ هزار توکن را منتشر کرد

ByteDance مدل متن‌باز 36 میلیارد پارامتری خود را معرفی کرد: Seed-OSS-36B روی Hugging Face منتشر شد

تیم تحقیقاتی Seed از شرکت چینی ByteDance روز جدیدی از مدل‌های زبان بزرگ متن‌باز را منتشر کرد؛ مجموعه Seed-OSS-36B اکنون روی پلتفرم Hugging Face در دسترس است و سه وِریانت اصلی را شامل می‌شود: نسخه پایه با داده‌های سنتتیک (synthetic)، نسخه پایه بدون داده‌های سنتتیک (no-synthetic) و نسخه Instruct که برای پیروی از دستورات و انجام وظایف پس‌آموزش (post-training) داده شده است. همه مدل‌ها تحت مجوز Apache-2.0 ارائه شده‌اند که اجازهٔ استفاده، تغییر و توزیع تجاری را بدون پرداخت حق امتیاز فراهم می‌کند — نکته‌ای حیاتی برای سازمان‌ها و توسعه‌دهندگانی که می‌خواهند مدل را در محصولات یا فرآیندهای داخلی خود به‌کار گیرند.

ویژگی‌های فنی کلیدی
– اندازه و معماری: هر مدل شامل 36 میلیارد پارامتر در 64 لایه است و از واژگان 155,000 توکنی پشتیبانی می‌کند. طراحی معماری شامل اجزایی مانند causal language modeling، grouped query attention، SwiGLU، RMSNorm و RoPE positional encoding است.
– زمینهٔ طولانی (long-context): مهم‌ترین ویژگی عملی این مجموعه، پشتیبانی بومی تا 512,000 توکن است — معیاری که امکان پردازش اسناد بسیار طولانی، زنجیره‌های استدلال پیچیده و گفتگوهای گسترده را بدون افت عملکرد فراهم می‌کند. برای مقایسه، این مقدار حدوداً معادل 1,600 صفحه متن است و دو برابر طول زمینه اعلام‌شده برای خانواده GPT‑5 محسوب می‌شود.
– بودجهٔ تفکر (thinking budget): توسعه‌دهندگان می‌توانند مشخص کنند مدل چه میزان «تفکر» یا استدلال انجام دهد قبل از اینکه پاسخ نهایی ارائه شود. این پارامتر به صورت چند‌ضربی از 512 توکن تنظیم می‌شود (عدد 0 برای حالت پاسخ‌دهی مستقیم) و به بهینه‌سازی تعادل بین دقت و هزینهٔ استنتاج کمک می‌کند.

سه نسخه و کاربری‌های پیشنهادی
– Seed-OSS-36B-Base (synthetic): نسخه‌ای که با داده‌های آموزشی مصنوعی تقویت شده و در بنچمارک‌های استاندارد عملکرد قوی‌تری نشان می‌دهد؛ مناسب برای کاربردهای عمومی که به دقت بالاتر نیاز دارند.
– Seed-OSS-36B-Base (no-synthetic): نسخهٔ بدون تقویت‌های داده‌ای مصنوعی که به عنوان یک پایهٔ «پاک‌تر» برای پژوهش و آزمایش روش‌های پس‌آموزشی عمل می‌کند و ریسک تحریف یا بایاس ناشی از دادهٔ سنتتیک را کاهش می‌دهد.
– Seed-OSS-36B-Instruct: مدل پس‌آموزش‌یافته برای دنبال‌کردن دستورات و انجام وظایف مشخص؛ مناسب برای کاربردهایی که نیاز به پاسخ‌های هدایت‌شده و وظیفه‌محور دارند.

عملکرد و بنچمارک‌ها
طبق نتایج منتشرشده، وِریانت Instruct در چندین حوزه نتایج سطح‌بالا (state-of-the-art) ثبت کرده است. نسخهٔ no-synthetic در برخی معیارها کمی عقب‌تر است اما در تست GPQA-D از نسخهٔ سنتتیک فراتر رفته و به پژوهشگران یک پایهٔ بی‌طرف برای آزمایش‌های بعدی می‌دهد. مجموعاً، Seed-OSS-36B نشان‌دهندهٔ گزینه‌ای قوی برای کارهای ریاضی سنگین، کدنویسی و پردازش متون طولانی است.

قابلیت‌های اجرایی و پیاده‌سازی
تیم Seed برای تسهیل پذیرش، پشتیبانی از ابزارهای متداول را فراهم کرده است:
– سازگاری با کتابخانه Hugging Face Transformers.
– پشتیبانی از کوانتیزه‌سازی 4-بیتی و 8-بیتی برای کاهش مصرف حافظه و هزینه‌های استنتاج.
– ادغام نمونه‌ای با vLLM برای سروینگ مقیاس‌پذیر و ارائهٔ مثال‌های پیکربندی و API server.
– اسکریپت‌هایی برای استنتاج، سفارشی‌سازی پرامپت و ترکیب با ابزارها برای کاهش موانع فنی تیم‌های کوچک یا پروژه‌های با بودجه محدود.

پیامدها برای سازمان‌ها و ملاحظات امنیتی
عرضهٔ مدل‌هایی با مجوز Apache-2.0 و قابلیت‌های زمینهٔ طولانی، گزینهٔ جذابی برای شرکت‌ها و پژوهشگران فراهم می‌کند تا بدون محدودیت‌های لایسنس سنتی، مدل‌ها را در محصولات تجاری یا داخلی به کار بگیرند. در عین حال، توصیه می‌شود سازمان‌ها پیش از استقرار نهایی، ارزیابی‌های جامع در حوزه امنیت، حریم خصوصی، و بایاس انجام دهند؛ به‌خصوص زمانی که از نسخه‌های سنتتیک استفاده می‌شود که می‌تواند اثرات نامطلوبی روی تعمیم‌پذیری و رفتار مدل داشته باشد.

جمع‌بندی
با انتشار Seed-OSS-36B، ByteDance مجموعه‌ای از مدل‌های زبان بزرگ متن‌باز را ارائه کرده که ترکیبی از عملکرد بالا، پشتیبانی از متن‌های بسیار طولانی و مجوز آزاد را در اختیار توسعه‌دهندگان و سازمان‌ها می‌گذارد. این گام بخشی از روند تابستان 2025 است که شرکت‌های چینی مدل‌های قوی متن‌باز را عرضه می‌کنند و فضای رقابت در حوزهٔ ال‌ال‌ام را گسترش می‌دهد. برای تیم‌های فنی و تصمیم‌گیرندگان، Seed-OSS-36B یک گزینهٔ عملی و انعطاف‌پذیر برای آزمایش و استقرار کاربردهای پیشرفتهٔ پردازش زبان طبیعی محسوب می‌شود.

دستیار صوتی هوشمند پیشرفته

ByteDance مدل متن‌باز Seed-OSS-36B با زمینه ۵۱۲ هزار توکن را منتشر کرد

دیدگاه‌ خود را بنویسید لغو پاسخ