Claude Sonnet 4.6:Anthropic 打出了一张"性价比王牌"
| 实战与进阶

Claude Sonnet 4.6:Anthropic 打出了一张"性价比王牌"

一个让 Opus 4.5 都尴尬的 Sonnet

2026 年 2 月 17 日,Anthropic 发布了 Claude Sonnet 4.6。

这不是一次常规更新。

这是一次”降维打击”。

为什么这么说?

因为 Sonnet 4.6 做到了一件不可思议的事:

用 Sonnet 的价格,提供接近 Opus 的性能。

更离谱的是,在某些任务上,用户甚至更喜欢 Sonnet 4.6,而不是去年 11 月发布的旗舰模型 Opus 4.5。

这意味着什么?

意味着 Anthropic 在短短几个月内,把一个”中端模型”升级到了”准旗舰”水平。

而价格?没变。

数据不会说谎

Anthropic 在 Claude Code 中做了早期测试:

70% 的用户更喜欢 Sonnet 4.6,而不是 Sonnet 4.5。

这还不够惊人。

更惊人的是:

59% 的用户更喜欢 Sonnet 4.6,而不是 Opus 4.5。

Opus 4.5 是什么?

那是 Anthropic 在 2025 年 11 月发布的旗舰模型,当时被认为是”最强大脑”。

结果呢?

短短三个月后,一个 Sonnet 模型就能在用户体验上超越它。

用户反馈:

  • 更少的”过度工程化”:不会把简单问题复杂化
  • 更少的”懒惰”:不会敷衍了事
  • 更好的指令遵循:听得懂人话
  • 更少的幻觉:不会胡说八道
  • 更一致的多步骤任务执行:不会半途而废

这些改进,听起来很”基础”,但恰恰是开发者最需要的。

1M Token 上下文窗口:不是噱头

Sonnet 4.6 支持 1M Token 上下文窗口(Beta)。

1M Token 是什么概念?

  • 整个代码库:可以一次性读取一个中型项目的所有代码
  • 长合同:可以分析几百页的法律文件
  • 数十篇研究论文:可以同时处理大量学术资料

但更重要的是:

Sonnet 4.6 能在这 1M Token 中有效推理。

这不是简单的”能读”,而是”能理解、能分析、能规划”。

Anthropic 用 Vending-Bench Arena 测试了这一点。

这个测试模拟了一个商业场景:让 AI 模型经营一家(虚拟)公司,看谁能赚最多钱。

Sonnet 4.6 的策略:

  1. 前 10 个月:大量投资产能,花钱比竞争对手多得多
  2. 最后阶段:突然转向盈利模式,疯狂赚钱

结果?

Sonnet 4.6 远远领先竞争对手。

这种”长期规划 + 精准转向”的能力,正是 1M Token 上下文窗口带来的优势。

计算机使用能力:从”实验性”到”可用”

2024 年 10 月,Anthropic 首次推出了”计算机使用”功能。

当时的评价是:

“仍然是实验性的——有时笨拙且容易出错。”

但 Anthropic 说:

“我们预计会有快速改进。”

他们没有食言。

16 个月后,Sonnet 4.6 在 OSWorld 基准测试中的表现:

OSWorld 是什么?

这是一个标准的 AI 计算机使用基准测试。

它让 AI 模型在一个模拟的计算机上完成数百个任务:

  • 使用 Chrome 浏览器
  • 编辑 LibreOffice 文档
  • 在 VS Code 中写代码

没有 API,没有特殊接口。

AI 模型必须像人类一样:

  • 点击鼠标
  • 输入键盘
  • 浏览网页

Sonnet 4.6 的表现:

在保险行业的基准测试中,Sonnet 4.6 达到了 94% 的准确率

这是 Anthropic 测试过的所有模型中,计算机使用能力最强的

实际应用场景:

  • 导航复杂的电子表格
  • 填写多步骤的网页表单
  • 在多个浏览器标签之间协调工作

这些任务,以前需要人工完成,或者需要专门开发自动化脚本。

现在?

直接让 AI 来做。

编码能力:前端和财务分析的”完美品味”

早期用户反馈中,有两个领域特别突出:

1. 前端代码

用户描述 Sonnet 4.6 生成的前端代码:

“视觉输出明显更精致,布局、动画和设计感都比以前的模型好得多。”

更重要的是:

“需要更少的迭代就能达到生产质量。”

这意味着什么?

意味着开发者不用反复修改、调整、优化。

一次生成,直接可用。

2. 财务分析

Sonnet 4.6 在处理企业文档(图表、PDF、表格)时表现出色。

它能:

  • 读取复杂的财务报表
  • 提取关键数据
  • 进行推理和分析

OfficeQA 基准测试中,Sonnet 4.6 的表现与 Opus 4.6 相当。

这意味着:

以前需要 Opus 才能完成的文档理解任务,现在 Sonnet 就能搞定。

价格:没变

这是最疯狂的部分。

Sonnet 4.6 的价格与 Sonnet 4.5 完全相同:

  • 输入:$3 per million tokens
  • 输出:$15 per million tokens

对比一下:

  • Opus 4.6:价格更高(具体未公开,但通常是 Sonnet 的数倍)
  • GPT-4:$30/$60 per million tokens
  • Claude Sonnet 4.6:$3/$15 per million tokens

性价比?

无敌。

安全性:不是事后补丁

每次发布新模型,Anthropic 都会进行广泛的安全评估。

Sonnet 4.6 也不例外。

安全研究人员的结论:

“Sonnet 4.6 具有’广泛温暖、诚实、亲社会,有时还很有趣的性格,非常强的安全行为,没有重大错位问题的迹象。’”

特别是在 计算机使用 方面,Sonnet 4.6 对 提示注入攻击 的抵抗力大幅提升。

提示注入攻击是什么?

就是恶意网站在页面中隐藏指令,试图劫持 AI 模型。

Sonnet 4.6 在这方面的表现:

  • 比 Sonnet 4.5 有重大改进
  • 与 Opus 4.6 相当

这意味着:

Sonnet 4.6 不仅更强,而且更安全。

产品更新:不止是模型

Sonnet 4.6 的发布,还伴随着一系列产品更新:

1. 自适应思考和扩展思考

Sonnet 4.6 支持:

  • 自适应思考:根据任务复杂度自动调整思考深度
  • 扩展思考:对于复杂任务,可以进行更深入的推理

2. 上下文压缩(Beta)

当对话接近上下文限制时,自动总结旧内容,增加有效上下文长度。

3. 网页搜索和抓取工具

Claude 的网页搜索和抓取工具现在可以:

  • 自动编写和执行代码
  • 过滤和处理搜索结果
  • 只保留相关内容

这提高了响应质量和 Token 效率。

4. Claude in Excel 支持 MCP 连接器

现在可以在 Excel 中使用 Claude,并连接到:

  • S&P Global
  • LSEG
  • Daloopa
  • PitchBook
  • Moody’s
  • FactSet

不用离开 Excel,就能让 Claude 从外部工具中提取数据。

谁应该用 Sonnet 4.6?

适合 Sonnet 4.6 的场景:

  • 编码任务:前端开发、代码审查、Bug 修复
  • 文档分析:财务报表、法律合同、研究论文
  • 计算机使用:自动化网页操作、表单填写、数据提取
  • 长上下文任务:代码库分析、多文档推理
  • Agent 任务:多步骤规划、工作流协调

什么时候还需要 Opus 4.6?

Anthropic 的建议:

“Opus 4.6 仍然是需要最深推理的任务的最强选择,例如代码库重构、协调工作流中的多个 Agent,以及必须做到完美的问题。”

简单来说:

  • Sonnet 4.6:90% 的任务
  • Opus 4.6:10% 的”必须完美”的任务

一个更大的趋势:AI 模型的”性价比革命”

Sonnet 4.6 的发布,不仅仅是一个模型的更新。

它代表了一个趋势:AI 模型的性价比正在快速提升。

对比:

2025 年 11 月:

  • Opus 4.5 是旗舰模型
  • Sonnet 4.5 是中端模型
  • 两者性能差距明显

2026 年 2 月:

  • Sonnet 4.6 接近 Opus 4.5 的性能
  • 价格不变
  • 用户甚至更喜欢 Sonnet 4.6

这意味着什么?

意味着 AI 模型的进化速度远超预期

三个月前的”旗舰性能”,现在已经成为”中端价格”。

这对开发者意味着什么?

意味着:

  • 更多的任务可以用更便宜的模型完成
  • 更多的应用场景变得经济可行
  • AI 的普及速度会更快

如何使用 Sonnet 4.6?

1. Claude.ai

免费用户和 Pro 用户:Sonnet 4.6 现在是默认模型。

直接访问 claude.ai,开始使用。

2. Claude API

开发者可以通过 API 使用 claude-sonnet-4-6

3. 主要云平台

Sonnet 4.6 已在所有主要云平台上线:

  • AWS Bedrock
  • Google Cloud
  • Azure

4. Claude Code 和 Claude Cowork

如果你使用 Claude Code 或 Claude Cowork,Sonnet 4.6 已经可用。

结语:一个”性价比王牌”

Claude Sonnet 4.6,用实力证明了:

AI 模型的进化,不是线性的,而是跳跃式的。

三个月前的旗舰性能,现在已经成为中端价格。

而这个趋势,还在加速。

对于开发者来说,这是最好的时代。

因为你可以用更少的钱,做更多的事。

对于 AI 行业来说,这是最激烈的竞争。

因为每个公司都在拼命提升性价比。

而对于用户来说,这是最幸福的时刻。

因为你可以用最少的成本,享受最好的服务。

Claude Sonnet 4.6,就是这个时代的缩影。

一个”性价比王牌”,正在改变 AI 的游戏规则。