Claude Sonnet 4.6：Anthropic 打出了一张"性价比王牌"

一个让 Opus 4.5 都尴尬的 Sonnet

2026 年 2 月 17 日，Anthropic 发布了 Claude Sonnet 4.6。

这不是一次常规更新。

这是一次”降维打击”。

为什么这么说？

因为 Sonnet 4.6 做到了一件不可思议的事：

用 Sonnet 的价格，提供接近 Opus 的性能。

更离谱的是，在某些任务上，用户甚至更喜欢 Sonnet 4.6，而不是去年 11 月发布的旗舰模型 Opus 4.5。

这意味着什么？

意味着 Anthropic 在短短几个月内，把一个”中端模型”升级到了”准旗舰”水平。

而价格？没变。

数据不会说谎

Anthropic 在 Claude Code 中做了早期测试：

70% 的用户更喜欢 Sonnet 4.6，而不是 Sonnet 4.5。

这还不够惊人。

更惊人的是：

59% 的用户更喜欢 Sonnet 4.6，而不是 Opus 4.5。

Opus 4.5 是什么？

那是 Anthropic 在 2025 年 11 月发布的旗舰模型，当时被认为是”最强大脑”。

结果呢？

短短三个月后，一个 Sonnet 模型就能在用户体验上超越它。

用户反馈：

更少的”过度工程化”：不会把简单问题复杂化
更少的”懒惰”：不会敷衍了事
更好的指令遵循：听得懂人话
更少的幻觉：不会胡说八道
更一致的多步骤任务执行：不会半途而废

这些改进，听起来很”基础”，但恰恰是开发者最需要的。

1M Token 上下文窗口：不是噱头

Sonnet 4.6 支持 1M Token 上下文窗口（Beta）。

1M Token 是什么概念？

整个代码库：可以一次性读取一个中型项目的所有代码
长合同：可以分析几百页的法律文件
数十篇研究论文：可以同时处理大量学术资料

但更重要的是：

Sonnet 4.6 能在这 1M Token 中有效推理。

这不是简单的”能读”，而是”能理解、能分析、能规划”。

Anthropic 用 Vending-Bench Arena 测试了这一点。

这个测试模拟了一个商业场景：让 AI 模型经营一家（虚拟）公司，看谁能赚最多钱。

Sonnet 4.6 的策略：

前 10 个月：大量投资产能，花钱比竞争对手多得多
最后阶段：突然转向盈利模式，疯狂赚钱

结果？

Sonnet 4.6 远远领先竞争对手。

这种”长期规划 + 精准转向”的能力，正是 1M Token 上下文窗口带来的优势。

计算机使用能力：从”实验性”到”可用”

2024 年 10 月，Anthropic 首次推出了”计算机使用”功能。

当时的评价是：

“仍然是实验性的——有时笨拙且容易出错。”

但 Anthropic 说：

“我们预计会有快速改进。”

他们没有食言。

16 个月后，Sonnet 4.6 在 OSWorld 基准测试中的表现：

OSWorld 是什么？

这是一个标准的 AI 计算机使用基准测试。

它让 AI 模型在一个模拟的计算机上完成数百个任务：

使用 Chrome 浏览器
编辑 LibreOffice 文档
在 VS Code 中写代码

没有 API，没有特殊接口。

AI 模型必须像人类一样：

点击鼠标
输入键盘
浏览网页

Sonnet 4.6 的表现：

在保险行业的基准测试中，Sonnet 4.6 达到了 94% 的准确率。

这是 Anthropic 测试过的所有模型中，计算机使用能力最强的。

实际应用场景：

导航复杂的电子表格
填写多步骤的网页表单
在多个浏览器标签之间协调工作

这些任务，以前需要人工完成，或者需要专门开发自动化脚本。

现在？

直接让 AI 来做。

编码能力：前端和财务分析的”完美品味”

早期用户反馈中，有两个领域特别突出：

1. 前端代码

用户描述 Sonnet 4.6 生成的前端代码：

“视觉输出明显更精致，布局、动画和设计感都比以前的模型好得多。”

更重要的是：

“需要更少的迭代就能达到生产质量。”

这意味着什么？

意味着开发者不用反复修改、调整、优化。

一次生成，直接可用。

2. 财务分析

Sonnet 4.6 在处理企业文档（图表、PDF、表格）时表现出色。

它能：

读取复杂的财务报表
提取关键数据
进行推理和分析

在 OfficeQA 基准测试中，Sonnet 4.6 的表现与 Opus 4.6 相当。

这意味着：

以前需要 Opus 才能完成的文档理解任务，现在 Sonnet 就能搞定。

价格：没变

这是最疯狂的部分。

Sonnet 4.6 的价格与 Sonnet 4.5 完全相同：

输入：$3 per million tokens
输出：$15 per million tokens

对比一下：

Opus 4.6：价格更高（具体未公开，但通常是 Sonnet 的数倍）
GPT-4：$30/$60 per million tokens
Claude Sonnet 4.6：$3/$15 per million tokens

性价比？

无敌。

安全性：不是事后补丁

每次发布新模型，Anthropic 都会进行广泛的安全评估。

Sonnet 4.6 也不例外。

安全研究人员的结论：

“Sonnet 4.6 具有’广泛温暖、诚实、亲社会，有时还很有趣的性格，非常强的安全行为，没有重大错位问题的迹象。’”

特别是在 计算机使用 方面，Sonnet 4.6 对 提示注入攻击 的抵抗力大幅提升。

提示注入攻击是什么？

就是恶意网站在页面中隐藏指令，试图劫持 AI 模型。

Sonnet 4.6 在这方面的表现：

比 Sonnet 4.5 有重大改进
与 Opus 4.6 相当

这意味着：

Sonnet 4.6 不仅更强，而且更安全。

产品更新：不止是模型

Sonnet 4.6 的发布，还伴随着一系列产品更新：

1. 自适应思考和扩展思考

Sonnet 4.6 支持：

自适应思考：根据任务复杂度自动调整思考深度
扩展思考：对于复杂任务，可以进行更深入的推理

2. 上下文压缩（Beta）

当对话接近上下文限制时，自动总结旧内容，增加有效上下文长度。

3. 网页搜索和抓取工具

Claude 的网页搜索和抓取工具现在可以：

自动编写和执行代码
过滤和处理搜索结果
只保留相关内容

这提高了响应质量和 Token 效率。

4. Claude in Excel 支持 MCP 连接器

现在可以在 Excel 中使用 Claude，并连接到：

S&P Global
LSEG
Daloopa
PitchBook
Moody’s
FactSet

不用离开 Excel，就能让 Claude 从外部工具中提取数据。

谁应该用 Sonnet 4.6？

适合 Sonnet 4.6 的场景：

编码任务：前端开发、代码审查、Bug 修复
文档分析：财务报表、法律合同、研究论文
计算机使用：自动化网页操作、表单填写、数据提取
长上下文任务：代码库分析、多文档推理
Agent 任务：多步骤规划、工作流协调

什么时候还需要 Opus 4.6？

Anthropic 的建议：

“Opus 4.6 仍然是需要最深推理的任务的最强选择，例如代码库重构、协调工作流中的多个 Agent，以及必须做到完美的问题。”

简单来说：

Sonnet 4.6：90% 的任务
Opus 4.6：10% 的”必须完美”的任务

一个更大的趋势：AI 模型的”性价比革命”

Sonnet 4.6 的发布，不仅仅是一个模型的更新。

它代表了一个趋势：AI 模型的性价比正在快速提升。

对比：

2025 年 11 月：

Opus 4.5 是旗舰模型
Sonnet 4.5 是中端模型
两者性能差距明显

2026 年 2 月：

Sonnet 4.6 接近 Opus 4.5 的性能
价格不变
用户甚至更喜欢 Sonnet 4.6

这意味着什么？

意味着 AI 模型的进化速度远超预期。

三个月前的”旗舰性能”，现在已经成为”中端价格”。

这对开发者意味着什么？

意味着：

更多的任务可以用更便宜的模型完成
更多的应用场景变得经济可行
AI 的普及速度会更快

如何使用 Sonnet 4.6？

1. Claude.ai

免费用户和 Pro 用户：Sonnet 4.6 现在是默认模型。

直接访问 claude.ai，开始使用。

2. Claude API

开发者可以通过 API 使用 claude-sonnet-4-6。

3. 主要云平台

Sonnet 4.6 已在所有主要云平台上线：

AWS Bedrock
Google Cloud
Azure

4. Claude Code 和 Claude Cowork

如果你使用 Claude Code 或 Claude Cowork，Sonnet 4.6 已经可用。

结语：一个”性价比王牌”

Claude Sonnet 4.6，用实力证明了：

AI 模型的进化，不是线性的，而是跳跃式的。

三个月前的旗舰性能，现在已经成为中端价格。

而这个趋势，还在加速。

对于开发者来说，这是最好的时代。

因为你可以用更少的钱，做更多的事。

对于 AI 行业来说，这是最激烈的竞争。

因为每个公司都在拼命提升性价比。

而对于用户来说，这是最幸福的时刻。

因为你可以用最少的成本，享受最好的服务。

Claude Sonnet 4.6，就是这个时代的缩影。

一个”性价比王牌”，正在改变 AI 的游戏规则。