一个让 Opus 4.5 都尴尬的 Sonnet
2026 年 2 月 17 日,Anthropic 发布了 Claude Sonnet 4.6。
这不是一次常规更新。
这是一次”降维打击”。
为什么这么说?
因为 Sonnet 4.6 做到了一件不可思议的事:
用 Sonnet 的价格,提供接近 Opus 的性能。
更离谱的是,在某些任务上,用户甚至更喜欢 Sonnet 4.6,而不是去年 11 月发布的旗舰模型 Opus 4.5。
这意味着什么?
意味着 Anthropic 在短短几个月内,把一个”中端模型”升级到了”准旗舰”水平。
而价格?没变。
数据不会说谎
Anthropic 在 Claude Code 中做了早期测试:
70% 的用户更喜欢 Sonnet 4.6,而不是 Sonnet 4.5。
这还不够惊人。
更惊人的是:
59% 的用户更喜欢 Sonnet 4.6,而不是 Opus 4.5。
Opus 4.5 是什么?
那是 Anthropic 在 2025 年 11 月发布的旗舰模型,当时被认为是”最强大脑”。
结果呢?
短短三个月后,一个 Sonnet 模型就能在用户体验上超越它。
用户反馈:
- 更少的”过度工程化”:不会把简单问题复杂化
- 更少的”懒惰”:不会敷衍了事
- 更好的指令遵循:听得懂人话
- 更少的幻觉:不会胡说八道
- 更一致的多步骤任务执行:不会半途而废
这些改进,听起来很”基础”,但恰恰是开发者最需要的。
1M Token 上下文窗口:不是噱头
Sonnet 4.6 支持 1M Token 上下文窗口(Beta)。
1M Token 是什么概念?
- 整个代码库:可以一次性读取一个中型项目的所有代码
- 长合同:可以分析几百页的法律文件
- 数十篇研究论文:可以同时处理大量学术资料
但更重要的是:
Sonnet 4.6 能在这 1M Token 中有效推理。
这不是简单的”能读”,而是”能理解、能分析、能规划”。
Anthropic 用 Vending-Bench Arena 测试了这一点。
这个测试模拟了一个商业场景:让 AI 模型经营一家(虚拟)公司,看谁能赚最多钱。
Sonnet 4.6 的策略:
- 前 10 个月:大量投资产能,花钱比竞争对手多得多
- 最后阶段:突然转向盈利模式,疯狂赚钱
结果?
Sonnet 4.6 远远领先竞争对手。
这种”长期规划 + 精准转向”的能力,正是 1M Token 上下文窗口带来的优势。
计算机使用能力:从”实验性”到”可用”
2024 年 10 月,Anthropic 首次推出了”计算机使用”功能。
当时的评价是:
“仍然是实验性的——有时笨拙且容易出错。”
但 Anthropic 说:
“我们预计会有快速改进。”
他们没有食言。
16 个月后,Sonnet 4.6 在 OSWorld 基准测试中的表现:
OSWorld 是什么?
这是一个标准的 AI 计算机使用基准测试。
它让 AI 模型在一个模拟的计算机上完成数百个任务:
- 使用 Chrome 浏览器
- 编辑 LibreOffice 文档
- 在 VS Code 中写代码
没有 API,没有特殊接口。
AI 模型必须像人类一样:
- 点击鼠标
- 输入键盘
- 浏览网页
Sonnet 4.6 的表现:
在保险行业的基准测试中,Sonnet 4.6 达到了 94% 的准确率。
这是 Anthropic 测试过的所有模型中,计算机使用能力最强的。
实际应用场景:
- 导航复杂的电子表格
- 填写多步骤的网页表单
- 在多个浏览器标签之间协调工作
这些任务,以前需要人工完成,或者需要专门开发自动化脚本。
现在?
直接让 AI 来做。
编码能力:前端和财务分析的”完美品味”
早期用户反馈中,有两个领域特别突出:
1. 前端代码
用户描述 Sonnet 4.6 生成的前端代码:
“视觉输出明显更精致,布局、动画和设计感都比以前的模型好得多。”
更重要的是:
“需要更少的迭代就能达到生产质量。”
这意味着什么?
意味着开发者不用反复修改、调整、优化。
一次生成,直接可用。
2. 财务分析
Sonnet 4.6 在处理企业文档(图表、PDF、表格)时表现出色。
它能:
- 读取复杂的财务报表
- 提取关键数据
- 进行推理和分析
在 OfficeQA 基准测试中,Sonnet 4.6 的表现与 Opus 4.6 相当。
这意味着:
以前需要 Opus 才能完成的文档理解任务,现在 Sonnet 就能搞定。
价格:没变
这是最疯狂的部分。
Sonnet 4.6 的价格与 Sonnet 4.5 完全相同:
- 输入:$3 per million tokens
- 输出:$15 per million tokens
对比一下:
- Opus 4.6:价格更高(具体未公开,但通常是 Sonnet 的数倍)
- GPT-4:$30/$60 per million tokens
- Claude Sonnet 4.6:$3/$15 per million tokens
性价比?
无敌。
安全性:不是事后补丁
每次发布新模型,Anthropic 都会进行广泛的安全评估。
Sonnet 4.6 也不例外。
安全研究人员的结论:
“Sonnet 4.6 具有’广泛温暖、诚实、亲社会,有时还很有趣的性格,非常强的安全行为,没有重大错位问题的迹象。’”
特别是在 计算机使用 方面,Sonnet 4.6 对 提示注入攻击 的抵抗力大幅提升。
提示注入攻击是什么?
就是恶意网站在页面中隐藏指令,试图劫持 AI 模型。
Sonnet 4.6 在这方面的表现:
- 比 Sonnet 4.5 有重大改进
- 与 Opus 4.6 相当
这意味着:
Sonnet 4.6 不仅更强,而且更安全。
产品更新:不止是模型
Sonnet 4.6 的发布,还伴随着一系列产品更新:
1. 自适应思考和扩展思考
Sonnet 4.6 支持:
- 自适应思考:根据任务复杂度自动调整思考深度
- 扩展思考:对于复杂任务,可以进行更深入的推理
2. 上下文压缩(Beta)
当对话接近上下文限制时,自动总结旧内容,增加有效上下文长度。
3. 网页搜索和抓取工具
Claude 的网页搜索和抓取工具现在可以:
- 自动编写和执行代码
- 过滤和处理搜索结果
- 只保留相关内容
这提高了响应质量和 Token 效率。
4. Claude in Excel 支持 MCP 连接器
现在可以在 Excel 中使用 Claude,并连接到:
- S&P Global
- LSEG
- Daloopa
- PitchBook
- Moody’s
- FactSet
不用离开 Excel,就能让 Claude 从外部工具中提取数据。
谁应该用 Sonnet 4.6?
适合 Sonnet 4.6 的场景:
- 编码任务:前端开发、代码审查、Bug 修复
- 文档分析:财务报表、法律合同、研究论文
- 计算机使用:自动化网页操作、表单填写、数据提取
- 长上下文任务:代码库分析、多文档推理
- Agent 任务:多步骤规划、工作流协调
什么时候还需要 Opus 4.6?
Anthropic 的建议:
“Opus 4.6 仍然是需要最深推理的任务的最强选择,例如代码库重构、协调工作流中的多个 Agent,以及必须做到完美的问题。”
简单来说:
- Sonnet 4.6:90% 的任务
- Opus 4.6:10% 的”必须完美”的任务
一个更大的趋势:AI 模型的”性价比革命”
Sonnet 4.6 的发布,不仅仅是一个模型的更新。
它代表了一个趋势:AI 模型的性价比正在快速提升。
对比:
2025 年 11 月:
- Opus 4.5 是旗舰模型
- Sonnet 4.5 是中端模型
- 两者性能差距明显
2026 年 2 月:
- Sonnet 4.6 接近 Opus 4.5 的性能
- 价格不变
- 用户甚至更喜欢 Sonnet 4.6
这意味着什么?
意味着 AI 模型的进化速度远超预期。
三个月前的”旗舰性能”,现在已经成为”中端价格”。
这对开发者意味着什么?
意味着:
- 更多的任务可以用更便宜的模型完成
- 更多的应用场景变得经济可行
- AI 的普及速度会更快
如何使用 Sonnet 4.6?
1. Claude.ai
免费用户和 Pro 用户:Sonnet 4.6 现在是默认模型。
直接访问 claude.ai,开始使用。
2. Claude API
开发者可以通过 API 使用 claude-sonnet-4-6。
3. 主要云平台
Sonnet 4.6 已在所有主要云平台上线:
- AWS Bedrock
- Google Cloud
- Azure
4. Claude Code 和 Claude Cowork
如果你使用 Claude Code 或 Claude Cowork,Sonnet 4.6 已经可用。
结语:一个”性价比王牌”
Claude Sonnet 4.6,用实力证明了:
AI 模型的进化,不是线性的,而是跳跃式的。
三个月前的旗舰性能,现在已经成为中端价格。
而这个趋势,还在加速。
对于开发者来说,这是最好的时代。
因为你可以用更少的钱,做更多的事。
对于 AI 行业来说,这是最激烈的竞争。
因为每个公司都在拼命提升性价比。
而对于用户来说,这是最幸福的时刻。
因为你可以用最少的成本,享受最好的服务。
Claude Sonnet 4.6,就是这个时代的缩影。
一个”性价比王牌”,正在改变 AI 的游戏规则。