GPT-5.4 震撼发布:这一夜,Claude 的高价神话被 OpenAI 彻底撕碎了!
| news

GPT-5.4 震撼发布:这一夜,Claude 的高价神话被 OpenAI 彻底撕碎了!

CleanShot 2026-03-06 at 08.00.32.png

深夜凌晨 2 点,GPT-5.4 突然发布。

对于 OpenClaw 用户来说,这是一个激动人心的时刻。

因为 GPT-5.4 终于补齐了 OpenAI 模型的最后一块短板:代码能力 + 世界知识 + 便宜的订阅额度

为什么说 GPT-5.4 是 OpenClaw 的天选模型?

在过去,OpenClaw 用户面临一个两难选择:

Claude Opus 4.6:

  • ✅ 代码能力强
  • ✅ 世界知识丰富
  • ✅ Agent 能力出色
  • ❌ 但是太贵了!API 价格 $5/$25 每百万 token
  • ❌ 不能用订阅额度(Anthropic 封禁了 OpenClaw)

GPT-5.3-Codex:

  • ✅ 代码能力超强
  • ✅ 可以用订阅额度
  • ❌ 但是世界知识差,不说人话
  • ❌ 规划能力弱

GPT-5.2:

  • ✅ 世界知识丰富
  • ✅ 可以用订阅额度
  • ❌ 但是代码能力不行

你看,要多别扭有多别扭。

而 GPT-5.4 来了,终于把这个短板补上了!

GPT-5.4 = 完美的 Agent 基座模型

OpenAI 官方的定位很明确:Designed for professional work(为专业工作而设计)。

GPT-5.4 的核心特点:

  1. 代码能力持平 GPT-5.3-Codex
  2. 世界知识超越 GPT-5.2
  3. 100万 token 上下文窗口
  4. 原生计算机使用能力
  5. 工具搜索优化
  6. 可以用订阅额度

翻译成大白话就是:

GPT-5.4 = GPT-5.3-Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的工具使用能力 + 超级便宜的 Codex 额度。

这四样加在一起,就是一个完美的 OpenClaw 天选基座模型。

核心性能指标

1. GDPval:83.0%

这个测试 AI 在真实工作任务中的表现,包括金融、法律等 44 种职业的知识工作。

  • GPT-5.4 Thinking:83.0%
  • Claude Opus 4.6:78.0%
  • GPT-5.3-Codex:70.9%

GPT-5.4 不只是会写代码,它还能跟你聊业务、聊金融、聊法律、聊各种专业领域的东西。

而且是用人话聊,不是用天书聊。

2. SWE-Bench Pro:57.7%

这个测试 AI 解决真实软件工程问题的能力,不只是 Python,而是测四种编程语言。

  • GPT-5.4 Thinking:57.7%
  • GPT-5.3-Codex:56.8%

基本持平。

这就是最想看到的结果:代码能力保住了 GPT-5.3-Codex 的水平,世界知识又补上来了。

3. OSWorld-Verified:75.0%

这个测试 AI 操作电脑的能力,就是让 AI 像人一样,用鼠标点击、用键盘输入、在不同应用之间切换,完成各种任务。

  • GPT-5.4 Thinking:75.0%
  • Claude Opus 4.6:72.7%
  • GPT-5.3-Codex:持平

而且,GPT-5.4 操作电脑的速度,快得离谱。

4. ToolAthon:54.6%

这个测试 AI 使用工具的能力,也就是 Agent 能力的核心指标之一。

  • GPT-5.4 Thinking:54.6%
  • Claude Opus 4.6:44.8%

差了将近 10 个点。

核心新特性

1. 100万 token 上下文窗口

这是 GPT-5.4 的一个大升级。

之前 GPT-5.3 的上下文窗口是 40万 token,GPT-5.4 直接翻了一倍多,到了 100万

这对 Agent 来说太重要了。

因为 Agent 在执行任务的时候,需要保持对整个任务的上下文理解。如果上下文窗口不够大,Agent 干着干着就会忘事儿,前面说的东西后面就不记得了。

100万 token,基本上足够应对绝大部分的 Agent 任务了。

当然,OpenAI 也不傻,他们说,超过 27万 token 之后,你的额度就算两倍了。

不过因为 Codex 给的额度实在是太多太多了,所以即使是 2 倍,其实也还好。

2. 原生计算机使用能力

这个是 GPT-5.4 的另一个大卖点。

OpenAI 说,GPT-5.4 是他们第一个内置原生计算机使用能力的主线模型。

它在编写通过 Playwright 等库操作计算机的代码方面表现非常出色,同时也能根据屏幕截图发出鼠标和键盘命令。

也就是代码和视觉齐飞。

OpenAI 基于此,还发布了一个新的 skills,叫 playwright-interactive

允许 Codex 同时以代码和视觉的两种方式,调试 Web 和 Electron 应用。

GitHub 地址:https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive

以前,当模型被赋予工具时,所有工具定义都会预先包含在提示中。

对于拥有大量工具的系统,这可能会为每个请求增加数千甚至数万个 token,而且绝大多数时候都毫无意义,平白无故导致成本上升、响应变慢。

GPT-5.4 支持了工具搜索:

GPT-5.4 不再直接接收完整工具定义,而是接收一份可用工具的轻量列表以及工具搜索功能。

当模型需要使用某个工具时,它可以查找该工具的定义并在当时将其追加到对话中。

非常像 Skills 渐进式呈现的方式,目的很简单,还是优化上下文工程。

OpenAI 在自己测试完以后,发现:

工具搜索配置在保持相同准确率的同时将总体 token 使用量减少 47%。

这个就非常牛逼了。

价格对比

相比于 GPT-5.2,价格是涨了的,但是还是比 Claude Opus 4.6 便宜不少。

  • Claude Opus 4.6:$5/$25 每百万 token(输入/输出)
  • GPT-5.4:$2.50/$10 每百万 token(输入/输出)

GPT-5.4 只有 Claude 的一半价格。

而且最重要的是:GPT-5.4 可以用 ChatGPT Plus 的订阅额度!

20 刀一个月,就可以用得超级爽。

OpenAI 对 OpenClaw 的支持

这里必须要说一下 OpenAI 对第三方工具的态度。

当 Claude 疯狂封 OpenClaw 账号的时候,OpenAI 大手一挥,说:我们不封,大家全力使用。

这是御三家里,唯一一个这么支持态度的,可以用第三方的工具,调用 Codex 的额度的。

而且还疯狂给 Codex 加额度。

真的,OpenAI 这会真的是大善人。

实际体验

目前 ChatGPT 和 Codex 都已经上线了 GPT-5.4。

从社区反馈来看,GPT-5.4 最大的改进是:终于说人话了!

GPT-5.3-Codex 的输出,技术性太强,很多非程序员出身的人看得很费劲。

而 GPT-5.4 的输出,清新沁人,能看懂了。

比如让它去扒网站视频,它会说:“这种活最烦”、“省得跟 Cloudflare 互相折寿”。

真的,有人味了。

当然,也有一些不足:

  1. 前端审美还是不如 Opus 4.6 和 Gemini
  2. 写作还是有点奇怪,爱用排比句

但瑕不掩瑜,整体体验已经非常好了。

OpenClaw 支持情况

目前 OpenClaw 使用 Codex 登录的方式,还没有支持 GPT-5.4。

但是社区里已经看到很多用户在催了,而且先行官们都普遍反馈效果很好。

估计很快就会支持。

一旦 OpenClaw 支持了 GPT-5.4,强烈建议把默认模型切换到 GPT-5.4。

为什么 GPT-5.4 适合 OpenClaw?

一个优秀的 Agent 基座模型,需要三种能力都很强:

  1. 代码能力
  2. 世界知识
  3. 多模态理解

当这三个都能 SOTA 的时候,你几乎必然就是最牛逼的 Agent 模型。

当然,还有一个重要的因素,就是价格

GPT-5.4 完美满足了这些要求:

  • ✅ 代码能力:持平 GPT-5.3-Codex
  • ✅ 世界知识:超越 GPT-5.2
  • ✅ 多模态:原生计算机使用能力
  • ✅ 价格:可以用订阅额度,20 刀/月

这就是最适合 OpenClaw 的天选模型。

我的看法

GPT-5.4 的发布,标志着 OpenAI 在 Agent 领域的全面发力。

从 GPT-5.2 到 GPT-5.3-Codex,再到 GPT-5.4,OpenAI 一直在补齐短板。

现在,短板补齐了。

对于 OpenClaw 用户来说,这是一个好消息。

因为终于有了一个:

  • 代码能力强
  • 世界知识丰富
  • 价格便宜
  • 可以用订阅额度

的模型了。

2026 年,真是疯狂的一年。

总结

GPT-5.4 的核心优势:

  1. 代码能力 - 持平 GPT-5.3-Codex(SWE-Bench Pro 57.7%)
  2. 世界知识 - 超越 GPT-5.2(GDPval 83.0%)
  3. Agent 能力 - 超越 Claude Opus 4.6(ToolAthon 54.6%)
  4. 上下文窗口 - 100万 token
  5. 原生计算机使用 - 第一个主线模型
  6. 工具搜索 - token 使用量减少 47%
  7. 价格 - 只有 Claude 的一半,可以用订阅额度

如果你在用 OpenClaw,等 OpenClaw 支持了以后,记得把默认模型切换到 GPT-5.4。

如果你还没用过 OpenClaw,现在是一个很好的开始时机。

毕竟,有了 GPT-5.4 这个天选模型,体验只会更好。


相关链接:

你准备好用 GPT-5.4 了吗?欢迎在评论区分享你的体验!