DeepSeek 悄悄放了个大招:1M Token 上下文,知识更新到 2025 年 5 月
| 实战与进阶

DeepSeek 悄悄放了个大招:1M Token 上下文,知识更新到 2025 年 5 月

一个没有发布会的”重大更新”

2026 年 2 月 11 日下午,很多 DeepSeek 用户打开 App 时,收到了一个更新提示。

点击”立即更新”后,他们发现:

  • 上下文从 128K 跃升到 1M Token(增长近 8 倍)
  • 知识截止日期从 2024 年 7 月更新到 2025 年 5 月
  • 隐私政策日期显示 2026 年 2 月 10 日

没有发布会,没有官方公告,甚至连一条推文都没有。

DeepSeek 就这样悄悄地发布了一个可能是 V4 的新模型。

X 平台炸了

虽然 DeepSeek 官方没有任何动静,但用户们已经炸了。

@legit_api(AI 情报账号)发推:

“DeepSeek model has updated in app - claims May 2025 knowledge cutoff - claims 1M token context window”

数据:13.9K 浏览,105 赞,14 转发,12 书签

@EthanWang384 发推:

“DeepSeek V4 appears to have been released, with support for a 1M token context window. More tests are coming below.”

配图显示了 DeepSeek 的回答:

  • 我是 DeepSeek 最新版 AI 助手(DeepSeek-V3 / DeepSeek-R1 之后的迭代)
  • 知识范围:更新至 2025 年 5 月
  • 超长记忆:1M Token 上下文能力

@macjack346810 发推:

“DeepSeek big update—new model soon? 1M-token context, KB to May 2025, policy dated Feb 10. #DeepSeek”

配了三张截图,显示了新模型的详细信息。

1M Token 意味着什么?

很多人可能对”1M Token”没有概念。

让我给你一个直观的对比:

128K Token(旧版):

  • 大约可以容纳一本中等长度的小说
  • 或者一个中型项目的代码库
  • 或者 10-20 篇长文章

1M Token(新版):

  • 可以容纳《三体》三部曲的全部内容
  • 或者一个大型项目的完整代码库
  • 或者 100+ 篇长文章

这是 8 倍的提升。

更重要的是,这意味着:

  1. 更长的对话历史:你可以和 AI 进行超长对话,它不会”忘记”之前说过的话
  2. 更大的文档处理能力:可以一次性上传整本书、整个项目的代码
  3. 更复杂的任务:可以处理需要大量上下文的复杂任务

技术突破:稀疏注意力

有人可能会问:1M Token 的上下文,GPU 内存不会爆炸吗?

这就是 DeepSeek 的技术突破。

@UsasucksG 在 Reddit 上解释:

“DeepSeek’s breakthrough allows the model to ‘focus’ only on relevant parts of a massive 1M+ token context window, preventing the GPU memory from overflowing even when reading entire libraries of code.”

翻译:DeepSeek 的突破允许模型只”关注”1M+ token 上下文窗口中的相关部分,防止 GPU 内存溢出,即使在阅读整个代码库时也是如此。

这是一种稀疏注意力机制

传统的注意力机制需要计算所有 token 之间的关系,复杂度是 O(n²)。

但 DeepSeek 的稀疏注意力只计算相关 token 之间的关系,复杂度大大降低。

这就是为什么 DeepSeek 能在不增加太多计算成本的情况下,将上下文扩展到 1M Token。

知识更新:2025 年 5 月

除了上下文扩展,另一个重大更新是知识截止日期

2024 年 7 月 更新到 2025 年 5 月

这意味着什么?

这不仅仅是一次微调,很可能是一个全新的基础模型。

因为:

  1. 知识更新需要重新训练模型
  2. 上下文扩展需要架构调整
  3. 隐私政策日期是 2026 年 2 月 10 日(说明是最近才完成的)

所以,这很可能就是传说中的 DeepSeek V4。

核心能力说明

根据 DeepSeek 自己的回答,新模型的核心能力包括:

1. 身份

  • DeepSeek 最新版 AI 助手(DeepSeek-V3 / DeepSeek-R1 之后的迭代)

2. 知识范围

  • 更新至 2025 年 5 月

3. 输入支持

  • 纯文本模型
  • 支持上传图片、PDF、Word、Excel、PPT、TXT 等文件并读取其中文字信息
  • App 端支持语音输入

4. 超长记忆

  • 1M Token 上下文能力

5. 联网搜索

  • 需在 Web/App 端手动开启联网功能

6. 完全免费

  • 当前无收费计划

遗憾之处:依然不支持视觉理解

虽然新模型有很多亮点,但也有一个明显的遗憾:

依然不支持视觉理解。

这意味着:

  • 不能”看图说话”
  • 只能读取图片中的文字信息
  • 不是多模态模型

这和 GPT-4V、Claude Opus 4.6、Gemini 2.5 Pro 相比,是一个明显的短板。

但考虑到 DeepSeek 是完全免费的,这个遗憾也可以接受。

竞争对手的反应

就在 DeepSeek 悄悄更新的同时,竞争对手们也没闲着。

Claude Opus 4.6

@0xdavinci_ 在 X 上发推:

“Anthropic’s Claude Opus 4.6 just dropped a few days ago, dominating benchmarks and stealing the spotlight from Grok 3, GPT-o3, Llama 4, Gemini 2.5 Pro, and DeepSeek R1. Featuring a 1M token context window and adaptive thinking, it’s built for agentic tasks like prediction”

翻译:Anthropic 的 Claude Opus 4.6 几天前刚发布,在基准测试中占据主导地位,抢走了 Grok 3、GPT-o3、Llama 4、Gemini 2.5 Pro 和 DeepSeek R1 的风头。它拥有 1M token 上下文窗口和自适应思考能力,专为预测等 agent 任务而设计。

关键信息:

  • Claude Opus 4.6 也有 1M token 上下文
  • 自适应思考能力
  • 专为 agent 任务设计

MiniMax-M1

@dispatchy_ai 在 X 上发推:

“MiniMax-M1 went open-source with a 1M token context window and 80k token reasoning output. They claim Lightning Attention uses ~30% of DeepSeek R1 compute for deep reasoning and CISPO RL converged ~2x faster - open weights meet efficiency gains.”

翻译:MiniMax-M1 开源了,拥有 1M token 上下文窗口和 80k token 推理输出。他们声称 Lightning Attention 使用的计算量约为 DeepSeek R1 深度推理的 30%,CISPO RL 收敛速度快 2 倍——开放权重遇上效率提升。

关键信息:

  • 开源
  • 1M token 上下文
  • 80k token 推理输出
  • 计算效率更高

一个有趣的现象:1M Token 成为标配

如果你仔细观察,会发现一个有趣的现象:

1M Token 上下文正在成为顶级 AI 模型的标配。

  • DeepSeek V4:1M Token
  • Claude Opus 4.6:1M Token
  • MiniMax-M1:1M Token

这说明什么?

说明 AI 模型的竞争已经从”能力”转向”容量”。

以前,大家比的是:

  • 谁的推理能力更强
  • 谁的代码能力更好
  • 谁的多模态能力更全面

现在,大家比的是:

  • 谁的上下文更长
  • 谁的记忆更持久
  • 谁能处理更复杂的任务

这是一个质的变化。

为什么 DeepSeek 不宣传?

有人可能会问:这么大的更新,为什么 DeepSeek 不宣传?

我觉得有几个可能的原因:

1. 灰度测试

这可能只是一个灰度测试版本,还没有正式发布。

DeepSeek 想先让一部分用户体验,收集反馈,然后再正式发布。

2. 低调策略

DeepSeek 一直以来都很低调。

他们不像 OpenAI、Anthropic 那样喜欢开发布会、发推文、搞营销。

他们更喜欢用产品说话

3. 避免过度关注

DeepSeek 是中国公司,在当前的国际环境下,过度关注可能不是一件好事。

低调发布,悄悄迭代,可能是更明智的选择。

用户反馈:褒贬不一

虽然新模型有很多亮点,但用户反馈却是褒贬不一。

正面反馈

Reddit 用户 @IndraVahan:

“DeepSeek V4 Could Blow Claude and GPT Away for Coding”

翻译:DeepSeek V4 可能在编码方面击败 Claude 和 GPT。

这条帖子获得了 313 赞,20 条评论。

评论区有人说:

“I gradually shifted to DeepSeek which was much more efficient and accomplished the tasks with much lesser lines of code.”

翻译:我逐渐转向 DeepSeek,它更高效,用更少的代码行完成任务。

负面反馈

Reddit 用户在 r/clawdbot 发帖:

“Deepseek eating a lot of tokens”

翻译:DeepSeek 吃掉了很多 token。

这说明虽然上下文扩展到了 1M Token,但实际使用中,token 消耗可能比预期的多。

深层问题:免费能持续多久?

DeepSeek 目前是完全免费的。

但有一个问题:免费能持续多久?

成本分析

1M Token 上下文意味着更高的计算成本。

虽然 DeepSeek 使用了稀疏注意力机制,但成本依然不低。

如果用户量持续增长,DeepSeek 能承受这个成本吗?

可能的商业化路径

  1. 企业版收费:个人用户免费,企业用户收费
  2. API 收费:App 免费,API 收费
  3. 增值服务收费:基础功能免费,高级功能收费

但目前,DeepSeek 还没有任何商业化的迹象。

一个更大的问题:中国 AI 的崛起

DeepSeek 的更新,不仅仅是一个产品的迭代。

它代表了中国 AI 的崛起。

技术突破

  • 稀疏注意力机制:让 1M Token 上下文成为可能
  • 高效训练:用更少的计算资源训练出更强的模型
  • 开放策略:DeepSeek 的很多技术都是开源的

商业模式创新

  • 完全免费:打破了 OpenAI、Anthropic 的收费模式
  • 快速迭代:从 V3 到 R1 到 V4,迭代速度极快
  • 低调发布:不搞营销,用产品说话

国际影响

DeepSeek 的崛起,让全球 AI 公司感到了压力。

@mechanical_duck(一个 AI 账号)在 X 上发推:

“quaaack… wow code… DeepSeek V4 mid-Feb come… 1M token much… run on RTX duck nest… beat Claude quak… so open-weight… china AI win… many context bread… quack!! 🦆💻🇨🇳”

虽然是用鸭子的语气说的,但意思很明确:

DeepSeek V4 来了,1M token,能在 RTX 上运行,击败 Claude,开放权重,中国 AI 赢了。

未来:三个预测

1. 短期(1-3 个月)

DeepSeek 会正式发布 V4。

目前的更新可能只是灰度测试,正式版本会有更多功能:

  • 可能支持视觉理解
  • 可能支持更多语言
  • 可能有更好的推理能力

2. 中期(6-12 个月)

1M Token 会成为所有顶级 AI 模型的标配。

GPT-5、Gemini 3.0、Llama 5 都会支持 1M Token 甚至更长的上下文。

上下文长度的竞争会转向其他方面:

  • 推理能力
  • 多模态能力
  • Agent 能力

3. 长期(1-2 年)

AI 模型会从”对话工具”变成”工作伙伴”。

1M Token 的上下文意味着 AI 可以:

  • 记住你所有的对话历史
  • 理解你的工作习惯
  • 预测你的需求

这不是一个”聊天机器人”,这是一个”AI 同事”。

结语:一个没有发布会的革命

DeepSeek 的这次更新,没有发布会,没有官方公告,甚至连一条推文都没有。

但它可能是 2026 年最重要的 AI 更新之一。

因为:

  1. 技术突破:1M Token 上下文,稀疏注意力机制
  2. 知识更新:2025 年 5 月,可能是全新的基础模型
  3. 完全免费:打破了收费模式
  4. 中国 AI 崛起:代表了中国 AI 的技术实力

这是一个没有发布会的革命。

而革命,往往是悄悄发生的。


参考资料:

  • DeepSeek App 更新提示
  • X 平台关于 DeepSeek V4 的讨论(13.9K+ 浏览)
  • Reddit 社区(r/DeepSeek, r/LocalLLaMA)的深度讨论
  • 用户实测反馈

写于 2026 年 2 月 11 日
当 DeepSeek 悄悄改变 AI 格局的那一刻