Anthropic روز سهشنبه از مدل جدید خود، Claude Sonnet 4.6، رونمایی کرد؛ مدلی که با آوردن کارایی نزدیک به مدلهای پرچمدار اما با هزینهای میانی، میتواند ساختار هزینهای و تصمیمگیریهای سازمانها درباره استقرار عاملهای خودکار (AI agents) و ابزارهای خودکارسازی کدنویسی را دگرگون کند.
چکیده سریع: Sonnet 4.6 عملکردی نزدیک به مدلهای Opus ارائه میدهد اما با تعرفهای بسیار پایینتر — قیمت اعلامشده همان سطح Sonnet 4.5 است: 3 دلار / 15 دلار به ازای هر میلیون توکن (برای ورودی/خروجی)؛ در مقابل Opus که تعرفههایش 15 دلار / 75 دلار به ازای هر میلیون توکن است. این اختلاف قیمت در مقیاس میلیونها فراخوان API روزانه برای سازمانها تفاوتی بنیادین ایجاد میکند.
چه چیزی جدید است؟
– پوشش کاملتر قابلیتها: بهبودهای چشمگیر در کدنویسی، توانمندی در کار با رابطهای کامپیوتری (computer use)، استدلال در بستر متنهای بلند، برنامهریزی عاملیت، وظایف دانشمحور و طراحی.
– پنجره زمینهای بسیار بزرگ (در حالت بتا): پشتیبانی از 1 میلیون توکن که امکان نگهداری کل یک کدبیس، قراردادهای طولانی یا مجموعهای از مقالات پژوهشی را در یک درخواست فراهم میکند.
– پیشفرض در محصولات Anthropic: Sonnet 4.6 اکنون بهعنوان مدل پیشفرض در claude.ai، Claude Cowork، Claude Code و در لایه رایگان قرار گرفته و از طریق API با شناسه claude-sonnet-4-6 در دسترس توسعهدهندگان است.
عملکرد در بنچمارکها
Anthropic نتایج مختلفی را منتشر کرده که نشاندهنده نزدیکی یا برتری Sonnet 4.6 نسبت به مدلهای پرهزینهتر است:
– SWE-bench Verified (کدنویسی): 79.6% برای Sonnet 4.6 در برابر 80.8% برای Opus 4.6 — تقریباً یکسان.
– OSWorld-Verified (استفاده کامپیوتری عاملی): 72.5% برای Sonnet 4.6 در برابر 72.7% برای Opus 4.6.
– وظایف اداری (GDPval-AA Elo): Sonnet 4.6 با امتیاز 1633 از Opus 4.6 با 1606 جلو زد.
– تحلیلهای مالی عاملی: Sonnet 4.6 با 63.3% از Opus 4.6 (60.1%) پیشی گرفت.
پیشرفت سریع در «استفاده از کامپیوتر»
یکی از چشمگیرترین پیشرفتها، توانایی مدل در «عمل کردن روی یک کامپیوتر همانند انسان» است: کلیک، تایپ، پیمایش نرمافزارهایی که API ندارند و تعامل با سیستمهای قدیمی. مسیر پیشرفت Anthropic در این حوزه طی 16 ماه اخیر قابل توجه است:
– Sonnet 3.5 (اکتبر 2024): 14.9%
– Sonnet 3.7 (فوریه 2025): 28.0%
– Sonnet 4 (ژوئن): 42.2%
– Sonnet 4.5 (اکتبر): 61.4%
– Sonnet 4.6 (اکنون): 72.5%
اهمیت این پیشرفت از این نظر است که بسیاری از سازمانها با نرمافزارهای قدیمی نظیر پرتالهای بیمه، سامانههای دولتی، ERPها و سیستمهای بیمارستانی سروکار دارند که API استاندارد ندارند. مدلی که بتواند بهصورت مستقیم از طریق رابط کاربری با این سیستمها تعامل کند میتواند بهسرعت و بدون توسعه کانکتورهای اختصاصی، فرایندها را خودکار کند.
کیفیت، هزینه و تجربه کاربران
در تستهای اولیه کاربران Claude Code، تقریباً 70% مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح دادند و در 59% موارد Sonnet 4.6 را به Opus 4.5 برتری دادند. بازخوردها حاکی از کاهش خطاها (hallucinations)، توانایی بهتر در دنبال کردن دستورالعملها و پیگیری دقیقتر وظایف چندمرحلهای بود. همچنین Anthropic گزارش داده مقاومت مدل در برابر حملات «prompt injection» بهبود یافته که برای عاملهایی که صفحات وب را بازدید و با سیستمهای خارجی تعامل میکنند، اهمیت حیاتی دارد.
نمونه کاربرد و تصمیمگیری بلندمدت
قابلیت 1M توکن به مدل امکان میدهد تا برنامهریزیهای چندماهه و خوداتکای بلندمدت را انجام دهد؛ در یکی از ارزیابیها (Vending-Bench Arena) Sonnet 4.6 بدون مداخله انسانی استراتژی سرمایهگذاری و سپس کسب سود را در یک شبیهسازی کسبوکار طراحی و اجرا کرد؛ نتیجه نهایی این شبیهسازی برای Sonnet 4.6 حدود 5,700 دلار و برای Sonnet 4.5 حدود 2,100 دلار بود که نشاندهنده بهبود تصمیمگیری بلندمدت و مدیریت منابع است.
پیامد برای کسبوکارها
وقتی عملکرد مدل سطح Opus با هزینهای تا پنج برابر کمتر برای بسیاری از وظایف قابلدسترس شود، سازمانهایی که پیشتر بهدلیل هزینه محدود به نمونههای آزمایشی کوچک تن داده بودند، اکنون میتوانند عاملهای هوش مصنوعی را در مقیاس عملیاتی و پیوسته اجرا کنند. برای شرکتهایی که میلیونها فراخوان API در روز دارند، تفاوت بین 3 دلار و 15 دلار بهازای هر میلیون توکن به سرعت به صرفهجوییهای میلیونی تبدیل میشود.
موقعیت رقابتی و دسترسی
Anthropic همزمان با این عرضه، مشارکتهایی برای صنعت سازمانی اعلام کرده و حضور بینالمللی خود را گسترش داده است. از منظر رقابتی، شرکت ادعا میکند Sonnet 4.6 در برخی معیارها جلوتر از رقبایی مثل GPT-5.2 و Gemini 3 Pro است، بهویژه در حوزههای عاملیت و استفاده کامپیوتری که اولویت سرمایهگذاری سازمانهاست.
دسترسی
Claude Sonnet 4.6 هماکنون در تمامی برنامههای Claude، Claude Cowork، Claude Code، API و پلتفرمهای کلود عمده در دسترس است و بهعنوان مدل پیشفرض در لایه رایگان نیز فعال شده است. توسعهدهندگان میتوانند از شناسه claude-sonnet-4-6 در API Anthropic استفاده کنند.
جمعبندی
رونمایی Sonnet 4.6 نقطهای عطف در رقابت مدلهای زبانی است؛ ترکیب کارایی نزدیک به سطح پرچمدار با قیمت میانی میتواند نقشه راه استقرار عاملهای خودکار را برای بسیاری از سازمانها تغییر دهد. سازمانها باید اکنون بازنگری در معماری عاملها، ارزیابی هزینه-فایده و برنامههای استقرار بلندمدت را در دستور کار قرار دهند.
