一个让 Claude 和 GPT 都尴尬的”新王”
2026 年 2 月 20 日,谷歌发布了 Gemini 3.1 Pro。
这不是一次常规更新。
这是一次”王者归来”。
为什么这么说?
因为 Gemini 3.1 Pro 做到了一件让所有人都意外的事:
在 12 项基准测试中排名第一,血洗 Claude 和 GPT。
更离谱的是:
在 ARC-AGI-2 测试中,Gemini 3.1 Pro 的得分是上一代 Gemini 3 Pro 的两倍以上。
从 31.1% 跃升到 77.1%,短短三个月,实现了翻倍以上的跨越式提升。
这意味着什么?
意味着谷歌在 AI 竞赛中,终于找回了曾经的统治力。
数据不会说谎:12 项第一
谷歌官方公布了 16 项基准测试数据。
Gemini 3.1 Pro 在其中 12 项测试中均位列第一。
1. ARC-AGI-2:抽象推理能力
Gemini 3.1 Pro:77.1%
对比:
- Claude Opus 4.6:68.8%
- Claude Sonnet 4.6:58.3%
- GPT-5.2:52.9%
- Gemini 3 Pro:31.1%
ARC-AGI-2 是什么?
这是一个专门用于评估模型在从未见过的新逻辑模式下的泛化与推理能力的测试。
它包含多个视觉谜题,每个谜题均由一系列图形组成。
构成谜题的图形在设计上各不相同,但都遵循特定规律。
大语言模型必须推断出该规律,并利用其生成新的图形。
这不是简单的”记忆”或”模式匹配”,而是真正的抽象推理能力。
人类参与者在该测试中的平均正确率约为 60%。
Gemini 3.1 Pro 的 77.1% 意味着:
它在抽象推理能力上,已经超越了普通人类。
2. MCP Atlas:第三方服务调用能力
Gemini 3.1 Pro:69.2%
这个测试评估 AI 模型使用第三方服务执行任务的能力。
Gemini 3.1 Pro 领先于最近刚发布的 Claude Sonnet 4.6。
3. Terminal-Bench 2.0:编程能力
Gemini 3.1 Pro 的编码能力高于 Opus 4.6 和 GPT-5.2。
这是一个重大突破。
因为在过去的几个月里,Claude 和 GPT 一直被认为是编码领域的”王者”。
现在?
谷歌用 Gemini 3.1 Pro 证明:编码新王,已经易主。
4. SciCode:科学编程任务
Gemini 3.1 Pro 的表现比 Claude Opus 4.6 高出 7%。
SciCode 包含科学编程任务,这意味着 Gemini 3.1 Pro 不仅能写代码,还能理解科学问题,并用代码解决它们。
技术细节:混合专家架构
Gemini 3.1 Pro 是一款采用**混合专家架构(Mixture of Experts, MoE)**的 Transformer 模型。
这意味着什么?
它在生成提示响应时仅激活部分参数。
这种架构的优势:
- 更高的效率:不需要激活所有参数,降低计算成本
- 更强的专业化:不同的”专家”负责不同的任务
- 更快的响应速度:只激活需要的部分
上下文窗口:100 万 Token
用户可输入包含高达 100 万 Token 数据量的提示词。
内容不仅涵盖文本,还包括视频等多模态文件。
Gemini 3.1 Pro 的响应输出最多包含 6.4 万 Token。
这意味着:
- 可以一次性处理整个代码库
- 可以分析几百页的法律文件
- 可以同时处理大量学术资料
实际应用:不只是跑分
Gemini 3.1 Pro 不只是在基准测试中表现出色。
它在实际应用中,也展现出了惊人的能力。
1. 基于代码的动画生成
Gemini 3.1 Pro 可以直接根据文本提示生成可直接用于网站的动态 SVG 动画。
为什么这很重要?
因为这些动画完全由代码构建,而非像素渲染。
这意味着:
- 在任何缩放比例下都能保持清晰锐利
- 文件体积小得多:相比传统视频格式,极大降低了加载和分发成本
2. 复杂系统综合
Gemini 3.1 Pro 利用先进的推理能力,弥合了复杂 API 与用户友好型设计之间的鸿沟。
示例:
模型构建了一个实时航天仪表盘,成功配置并接入了一条公共遥测数据流,用于可视化国际空间站的轨道运行情况。
这不是简单的”调用 API”,而是:
- 理解 API 的结构
- 配置数据流
- 设计可视化界面
- 实时更新数据
这是一个完整的系统工程。
3. 交互式设计
Gemini 3.1 Pro 能够编写复杂的 **3D 椋鸟群舞(murmuration)**模拟代码。
它不仅生成视觉层面的代码,还构建了一个沉浸式体验:
- 用户可以通过手部追踪来操控鸟群
- 同时聆听一段会随着鸟群运动而动态变化的生成式配乐
这为原型化多感官、强交互的界面提供了一种极具潜力的方式。
4. 创意编程
Gemini 3.1 Pro 能够将文学主题转化为功能性代码。
示例:
当被要求为艾米莉·勃朗特的《呼啸山庄》构建一个现代个人作品集网站时,该模型:
- 概括了文本内容
- 推理小说中的阴郁基调
- 设计出时尚的当代界面
- 创建出能捕捉主角神韵的网站
这不是简单的”套模板”,而是真正的创意编程。
发布策略:全线铺开
Gemini 3.1 Pro 已于今日开始分批上线,覆盖对象包括开发者、企业客户以及普通消费者:
1. 开发者
可通过以下渠道使用:
- Gemini API(Google AI Studio)
- Gemini CLI
- 智能体开发平台 Google Antigravity
- Android Studio 预览
2. 企业用户
通过以下渠道接入:
- Vertex AI
- Gemini Enterprise
3. 消费者
可在以下平台直接体验:
- Gemini App
- NotebookLM
谷歌方面表示,此次”全线铺开”的策略,旨在将最新一代推理能力快速融入实际工作流与个人使用场景,而不仅仅停留在实验室或演示阶段。
与 Gemini 3 Deep Think 的关系
上周,谷歌发布了 Gemini 3 Deep Think,这是一款面向科学研究与工程领域复杂问题的模型。
Gemini 3 Deep Think 在 ARC-AGI-2 测试中的得分:84.6%
这比 Gemini 3.1 Pro 的 77.1% 更高。
但有一个关键区别:
- Gemini 3 Deep Think:仅限 Google AI Ultra 订阅用户使用,且每日限用 10 次
- Gemini 3.1 Pro:向所有用户免费开放
这意味着什么?
意味着谷歌正在尝试将前沿研究成果更快转化为”默认可用”的基础能力。
先通过 Deep Think 展示在科学与工程问题上的上限,再通过 3.1 Pro 将这些能力沉淀为更稳定、更通用的底座模型,并迅速推向 API、企业平台和消费级应用。
网友反应:谷歌重回巅峰
随着 Gemini 3.1 Pro 正式上线,围绕这次更新的讨论迅速在技术社区中展开。
1. 竞争焦点转移
有开发者指出:
“Gemini 3.1 Pro 上线了,重点不是更大,而是把整体推理和复杂问题求解能力继续往上推。这波信号很明确:头部模型竞争正在从参数规模,转向真实任务完成率。”
这是一个重要的转折点。
过去,大模型竞争的焦点是”谁的参数更多”。
现在,焦点转向了”谁能把问题真正做完、做好”。
2. 更新节奏加快
还有网友系统梳理了谷歌近年来模型更新的时间线,直言:
“人工智能的发展节奏已经进入’以月甚至以周计’的阶段。在这样的背景下,谷歌已难以承受过长的更新间隔。”
Gemini 3.1 Pro 在较短时间内推出,被解读为谷歌对这一现实压力的直接回应:
必须持续、快速地将核心能力推向市场。
3. 成本与落地能力
有网友特别提到:
“Gemini 3.1 Pro 在降低使用成本的同时提升智能水平,这种优化路径对于推动 AI 在生产环境中的应用尤为关键。”
人工智能的前沿价值并不仅体现在基准测试成绩上,更体现在这些能力能否被开发者社区轻松获取、快速部署,并稳定运行于真实业务中。
一个更大的趋势:推理能力的系统性升级
从技术定位来看,Gemini 3.1 Pro 并非简单的性能微调,而是一次核心推理能力(core reasoning)的系统性升级。
官方将其描述为”更聪明、更具能力的基础模型”,尤其适用于:
- 复杂问题求解
- 跨领域分析
- 需要抽象逻辑的任务
这一进步也体现在权威评测成绩上。
在 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 获得了 77.1% 的经验证成绩。
这一分数是 Gemini 3 Pro 推理表现的两倍以上。
在当前大模型竞争格局中,ARC-AGI 系列被视为衡量”类通用智能推理能力”的重要指标之一。
这一成绩也意味着 Gemini 3.1 Pro 在抽象推理与新问题适应能力上迈出了关键一步。
谷歌的野心:不只是追赶
Gemini 3.1 Pro 的发布,已经不只是一次常规的模型升级。
而更像是一次方向性的表态。
在大模型逐渐走向成熟的阶段,真正决定胜负的,将是:
- 推理能力
- 工程可用性
- 规模化落地的综合表现
谷歌正在尝试将前沿研究成果更快转化为”默认可用”的基础能力。
先通过 Deep Think 展示在科学与工程问题上的上限,再通过 3.1 Pro 将这些能力沉淀为更稳定、更通用的底座模型,并迅速推向 API、企业平台和消费级应用。
这不是追赶,而是重新定义游戏规则。
如何使用 Gemini 3.1 Pro?
1. Gemini App
Google AI Pro 和 Ultra 套餐用户:可在 Gemini App 中直接体验。
2. NotebookLM
Pro 及 Ultra 用户:Gemini 3.1 Pro 现已独家登陆 NotebookLM 平台。
3. 开发者和企业用户
可通过以下渠道抢先体验 3.1 Pro 预览版:
- AI Studio
- Antigravity
- Vertex AI
- Gemini Enterprise
- Gemini CLI
- Android Studio
结语:编码新王登基
Gemini 3.1 Pro,用实力证明了:
谷歌,回来了。
12 项基准测试第一,血洗 Claude 和 GPT。
77.1% 的 ARC-AGI-2 得分,是上一代的两倍以上。
这不是追赶,而是超越。
对于开发者来说,这是最好的消息。
因为你有了更多的选择,更强的工具。
对于 AI 行业来说,这是最激烈的竞争。
因为每个公司都在拼命提升能力。
而对于用户来说,这是最幸福的时刻。
因为你可以用最少的成本,享受最好的服务。
Gemini 3.1 Pro,就是这个时代的缩影。
一个”编码新王”,正在改变 AI 的游戏规则。