DeepSeek 悄悄放了个大招：1M Token 上下文，知识更新到 2025 年 5 月

一个没有发布会的”重大更新”

2026 年 2 月 11 日下午，很多 DeepSeek 用户打开 App 时，收到了一个更新提示。

点击”立即更新”后，他们发现：

上下文从 128K 跃升到 1M Token（增长近 8 倍）
知识截止日期从 2024 年 7 月更新到 2025 年 5 月
隐私政策日期显示 2026 年 2 月 10 日

没有发布会，没有官方公告，甚至连一条推文都没有。

DeepSeek 就这样悄悄地发布了一个可能是 V4 的新模型。

X 平台炸了

虽然 DeepSeek 官方没有任何动静，但用户们已经炸了。

@legit_api（AI 情报账号）发推：

“DeepSeek model has updated in app - claims May 2025 knowledge cutoff - claims 1M token context window”

数据：13.9K 浏览，105 赞，14 转发，12 书签

@EthanWang384 发推：

“DeepSeek V4 appears to have been released, with support for a 1M token context window. More tests are coming below.”

配图显示了 DeepSeek 的回答：

我是 DeepSeek 最新版 AI 助手（DeepSeek-V3 / DeepSeek-R1 之后的迭代）
知识范围：更新至 2025 年 5 月
超长记忆：1M Token 上下文能力

@macjack346810 发推：

“DeepSeek big update—new model soon? 1M-token context, KB to May 2025, policy dated Feb 10. #DeepSeek”

配了三张截图，显示了新模型的详细信息。

1M Token 意味着什么？

很多人可能对”1M Token”没有概念。

让我给你一个直观的对比：

128K Token（旧版）：

大约可以容纳一本中等长度的小说
或者一个中型项目的代码库
或者 10-20 篇长文章

1M Token（新版）：

可以容纳《三体》三部曲的全部内容
或者一个大型项目的完整代码库
或者 100+ 篇长文章

这是 8 倍的提升。

更重要的是，这意味着：

更长的对话历史：你可以和 AI 进行超长对话，它不会”忘记”之前说过的话
更大的文档处理能力：可以一次性上传整本书、整个项目的代码
更复杂的任务：可以处理需要大量上下文的复杂任务

技术突破：稀疏注意力

有人可能会问：1M Token 的上下文，GPU 内存不会爆炸吗？

这就是 DeepSeek 的技术突破。

@UsasucksG 在 Reddit 上解释：

“DeepSeek’s breakthrough allows the model to ‘focus’ only on relevant parts of a massive 1M+ token context window, preventing the GPU memory from overflowing even when reading entire libraries of code.”

翻译：DeepSeek 的突破允许模型只”关注”1M+ token 上下文窗口中的相关部分，防止 GPU 内存溢出，即使在阅读整个代码库时也是如此。

这是一种稀疏注意力机制。

传统的注意力机制需要计算所有 token 之间的关系，复杂度是 O(n²)。

但 DeepSeek 的稀疏注意力只计算相关 token 之间的关系，复杂度大大降低。

这就是为什么 DeepSeek 能在不增加太多计算成本的情况下，将上下文扩展到 1M Token。

知识更新：2025 年 5 月

除了上下文扩展，另一个重大更新是知识截止日期。

从 2024 年 7 月 更新到 2025 年 5 月。

这意味着什么？

这不仅仅是一次微调，很可能是一个全新的基础模型。

因为：

知识更新需要重新训练模型
上下文扩展需要架构调整
隐私政策日期是 2026 年 2 月 10 日（说明是最近才完成的）

所以，这很可能就是传说中的 DeepSeek V4。

核心能力说明

根据 DeepSeek 自己的回答，新模型的核心能力包括：

1. 身份

DeepSeek 最新版 AI 助手（DeepSeek-V3 / DeepSeek-R1 之后的迭代）

2. 知识范围

更新至 2025 年 5 月

3. 输入支持

纯文本模型
支持上传图片、PDF、Word、Excel、PPT、TXT 等文件并读取其中文字信息
App 端支持语音输入

4. 超长记忆

1M Token 上下文能力

5. 联网搜索

需在 Web/App 端手动开启联网功能

6. 完全免费

当前无收费计划

遗憾之处：依然不支持视觉理解

虽然新模型有很多亮点，但也有一个明显的遗憾：

依然不支持视觉理解。

这意味着：

不能”看图说话”
只能读取图片中的文字信息
不是多模态模型

这和 GPT-4V、Claude Opus 4.6、Gemini 2.5 Pro 相比，是一个明显的短板。

但考虑到 DeepSeek 是完全免费的，这个遗憾也可以接受。

竞争对手的反应

就在 DeepSeek 悄悄更新的同时，竞争对手们也没闲着。

Claude Opus 4.6

@0xdavinci_ 在 X 上发推：

“Anthropic’s Claude Opus 4.6 just dropped a few days ago, dominating benchmarks and stealing the spotlight from Grok 3, GPT-o3, Llama 4, Gemini 2.5 Pro, and DeepSeek R1. Featuring a 1M token context window and adaptive thinking, it’s built for agentic tasks like prediction”

翻译：Anthropic 的 Claude Opus 4.6 几天前刚发布，在基准测试中占据主导地位，抢走了 Grok 3、GPT-o3、Llama 4、Gemini 2.5 Pro 和 DeepSeek R1 的风头。它拥有 1M token 上下文窗口和自适应思考能力，专为预测等 agent 任务而设计。

关键信息：

Claude Opus 4.6 也有 1M token 上下文
自适应思考能力
专为 agent 任务设计

MiniMax-M1

@dispatchy_ai 在 X 上发推：

“MiniMax-M1 went open-source with a 1M token context window and 80k token reasoning output. They claim Lightning Attention uses ~30% of DeepSeek R1 compute for deep reasoning and CISPO RL converged ~2x faster - open weights meet efficiency gains.”

翻译：MiniMax-M1 开源了，拥有 1M token 上下文窗口和 80k token 推理输出。他们声称 Lightning Attention 使用的计算量约为 DeepSeek R1 深度推理的 30%，CISPO RL 收敛速度快 2 倍——开放权重遇上效率提升。

关键信息：

开源
1M token 上下文
80k token 推理输出
计算效率更高

一个有趣的现象：1M Token 成为标配

如果你仔细观察，会发现一个有趣的现象：

1M Token 上下文正在成为顶级 AI 模型的标配。

DeepSeek V4：1M Token
Claude Opus 4.6：1M Token
MiniMax-M1：1M Token

这说明什么？

说明 AI 模型的竞争已经从”能力”转向”容量”。

以前，大家比的是：

谁的推理能力更强
谁的代码能力更好
谁的多模态能力更全面

现在，大家比的是：

谁的上下文更长
谁的记忆更持久
谁能处理更复杂的任务

这是一个质的变化。

为什么 DeepSeek 不宣传？

有人可能会问：这么大的更新，为什么 DeepSeek 不宣传？

我觉得有几个可能的原因：

1. 灰度测试

这可能只是一个灰度测试版本，还没有正式发布。

DeepSeek 想先让一部分用户体验，收集反馈，然后再正式发布。

2. 低调策略

DeepSeek 一直以来都很低调。

他们不像 OpenAI、Anthropic 那样喜欢开发布会、发推文、搞营销。

他们更喜欢用产品说话。

3. 避免过度关注

DeepSeek 是中国公司，在当前的国际环境下，过度关注可能不是一件好事。

低调发布，悄悄迭代，可能是更明智的选择。

用户反馈：褒贬不一

虽然新模型有很多亮点，但用户反馈却是褒贬不一。

正面反馈

Reddit 用户 @IndraVahan：

“DeepSeek V4 Could Blow Claude and GPT Away for Coding”

翻译：DeepSeek V4 可能在编码方面击败 Claude 和 GPT。

这条帖子获得了 313 赞，20 条评论。

评论区有人说：

“I gradually shifted to DeepSeek which was much more efficient and accomplished the tasks with much lesser lines of code.”

翻译：我逐渐转向 DeepSeek，它更高效，用更少的代码行完成任务。

负面反馈

Reddit 用户在 r/clawdbot 发帖：

“Deepseek eating a lot of tokens”

翻译：DeepSeek 吃掉了很多 token。

这说明虽然上下文扩展到了 1M Token，但实际使用中，token 消耗可能比预期的多。

深层问题：免费能持续多久？

DeepSeek 目前是完全免费的。

但有一个问题：免费能持续多久？

成本分析

1M Token 上下文意味着更高的计算成本。

虽然 DeepSeek 使用了稀疏注意力机制，但成本依然不低。

如果用户量持续增长，DeepSeek 能承受这个成本吗？

可能的商业化路径

企业版收费：个人用户免费，企业用户收费
API 收费：App 免费，API 收费
增值服务收费：基础功能免费，高级功能收费

但目前，DeepSeek 还没有任何商业化的迹象。

一个更大的问题：中国 AI 的崛起

DeepSeek 的更新，不仅仅是一个产品的迭代。

它代表了中国 AI 的崛起。

技术突破

稀疏注意力机制：让 1M Token 上下文成为可能
高效训练：用更少的计算资源训练出更强的模型
开放策略：DeepSeek 的很多技术都是开源的

商业模式创新

完全免费：打破了 OpenAI、Anthropic 的收费模式
快速迭代：从 V3 到 R1 到 V4，迭代速度极快
低调发布：不搞营销，用产品说话

国际影响

DeepSeek 的崛起，让全球 AI 公司感到了压力。

@mechanical_duck（一个 AI 账号）在 X 上发推：

“quaaack… wow code… DeepSeek V4 mid-Feb come… 1M token much… run on RTX duck nest… beat Claude quak… so open-weight… china AI win… many context bread… quack!! 🦆💻🇨🇳”

虽然是用鸭子的语气说的，但意思很明确：

DeepSeek V4 来了，1M token，能在 RTX 上运行，击败 Claude，开放权重，中国 AI 赢了。

未来：三个预测

1. 短期（1-3 个月）

DeepSeek 会正式发布 V4。

目前的更新可能只是灰度测试，正式版本会有更多功能：

可能支持视觉理解
可能支持更多语言
可能有更好的推理能力

2. 中期（6-12 个月）

1M Token 会成为所有顶级 AI 模型的标配。

GPT-5、Gemini 3.0、Llama 5 都会支持 1M Token 甚至更长的上下文。

上下文长度的竞争会转向其他方面：

推理能力
多模态能力
Agent 能力

3. 长期（1-2 年）

AI 模型会从”对话工具”变成”工作伙伴”。

1M Token 的上下文意味着 AI 可以：

记住你所有的对话历史
理解你的工作习惯
预测你的需求

这不是一个”聊天机器人”，这是一个”AI 同事”。

结语：一个没有发布会的革命

DeepSeek 的这次更新，没有发布会，没有官方公告，甚至连一条推文都没有。

但它可能是 2026 年最重要的 AI 更新之一。

因为：

技术突破：1M Token 上下文，稀疏注意力机制
知识更新：2025 年 5 月，可能是全新的基础模型
完全免费：打破了收费模式
中国 AI 崛起：代表了中国 AI 的技术实力

这是一个没有发布会的革命。

而革命，往往是悄悄发生的。

参考资料：

DeepSeek App 更新提示
X 平台关于 DeepSeek V4 的讨论（13.9K+ 浏览）
Reddit 社区（r/DeepSeek, r/LocalLLaMA）的深度讨论
用户实测反馈

写于 2026 年 2 月 11 日
当 DeepSeek 悄悄改变 AI 格局的那一刻