一个没有发布会的”重大更新”
2026 年 2 月 11 日下午,很多 DeepSeek 用户打开 App 时,收到了一个更新提示。
点击”立即更新”后,他们发现:
- 上下文从 128K 跃升到 1M Token(增长近 8 倍)
- 知识截止日期从 2024 年 7 月更新到 2025 年 5 月
- 隐私政策日期显示 2026 年 2 月 10 日
没有发布会,没有官方公告,甚至连一条推文都没有。
DeepSeek 就这样悄悄地发布了一个可能是 V4 的新模型。
X 平台炸了
虽然 DeepSeek 官方没有任何动静,但用户们已经炸了。
@legit_api(AI 情报账号)发推:
“DeepSeek model has updated in app - claims May 2025 knowledge cutoff - claims 1M token context window”
数据:13.9K 浏览,105 赞,14 转发,12 书签
@EthanWang384 发推:
“DeepSeek V4 appears to have been released, with support for a 1M token context window. More tests are coming below.”
配图显示了 DeepSeek 的回答:
- 我是 DeepSeek 最新版 AI 助手(DeepSeek-V3 / DeepSeek-R1 之后的迭代)
- 知识范围:更新至 2025 年 5 月
- 超长记忆:1M Token 上下文能力
@macjack346810 发推:
“DeepSeek big update—new model soon? 1M-token context, KB to May 2025, policy dated Feb 10. #DeepSeek”
配了三张截图,显示了新模型的详细信息。
1M Token 意味着什么?
很多人可能对”1M Token”没有概念。
让我给你一个直观的对比:
128K Token(旧版):
- 大约可以容纳一本中等长度的小说
- 或者一个中型项目的代码库
- 或者 10-20 篇长文章
1M Token(新版):
- 可以容纳《三体》三部曲的全部内容
- 或者一个大型项目的完整代码库
- 或者 100+ 篇长文章
这是 8 倍的提升。
更重要的是,这意味着:
- 更长的对话历史:你可以和 AI 进行超长对话,它不会”忘记”之前说过的话
- 更大的文档处理能力:可以一次性上传整本书、整个项目的代码
- 更复杂的任务:可以处理需要大量上下文的复杂任务
技术突破:稀疏注意力
有人可能会问:1M Token 的上下文,GPU 内存不会爆炸吗?
这就是 DeepSeek 的技术突破。
@UsasucksG 在 Reddit 上解释:
“DeepSeek’s breakthrough allows the model to ‘focus’ only on relevant parts of a massive 1M+ token context window, preventing the GPU memory from overflowing even when reading entire libraries of code.”
翻译:DeepSeek 的突破允许模型只”关注”1M+ token 上下文窗口中的相关部分,防止 GPU 内存溢出,即使在阅读整个代码库时也是如此。
这是一种稀疏注意力机制。
传统的注意力机制需要计算所有 token 之间的关系,复杂度是 O(n²)。
但 DeepSeek 的稀疏注意力只计算相关 token 之间的关系,复杂度大大降低。
这就是为什么 DeepSeek 能在不增加太多计算成本的情况下,将上下文扩展到 1M Token。
知识更新:2025 年 5 月
除了上下文扩展,另一个重大更新是知识截止日期。
从 2024 年 7 月 更新到 2025 年 5 月。
这意味着什么?
这不仅仅是一次微调,很可能是一个全新的基础模型。
因为:
- 知识更新需要重新训练模型
- 上下文扩展需要架构调整
- 隐私政策日期是 2026 年 2 月 10 日(说明是最近才完成的)
所以,这很可能就是传说中的 DeepSeek V4。
核心能力说明
根据 DeepSeek 自己的回答,新模型的核心能力包括:
1. 身份
- DeepSeek 最新版 AI 助手(DeepSeek-V3 / DeepSeek-R1 之后的迭代)
2. 知识范围
- 更新至 2025 年 5 月
3. 输入支持
- 纯文本模型
- 支持上传图片、PDF、Word、Excel、PPT、TXT 等文件并读取其中文字信息
- App 端支持语音输入
4. 超长记忆
- 1M Token 上下文能力
5. 联网搜索
- 需在 Web/App 端手动开启联网功能
6. 完全免费
- 当前无收费计划
遗憾之处:依然不支持视觉理解
虽然新模型有很多亮点,但也有一个明显的遗憾:
依然不支持视觉理解。
这意味着:
- 不能”看图说话”
- 只能读取图片中的文字信息
- 不是多模态模型
这和 GPT-4V、Claude Opus 4.6、Gemini 2.5 Pro 相比,是一个明显的短板。
但考虑到 DeepSeek 是完全免费的,这个遗憾也可以接受。
竞争对手的反应
就在 DeepSeek 悄悄更新的同时,竞争对手们也没闲着。
Claude Opus 4.6
@0xdavinci_ 在 X 上发推:
“Anthropic’s Claude Opus 4.6 just dropped a few days ago, dominating benchmarks and stealing the spotlight from Grok 3, GPT-o3, Llama 4, Gemini 2.5 Pro, and DeepSeek R1. Featuring a 1M token context window and adaptive thinking, it’s built for agentic tasks like prediction”
翻译:Anthropic 的 Claude Opus 4.6 几天前刚发布,在基准测试中占据主导地位,抢走了 Grok 3、GPT-o3、Llama 4、Gemini 2.5 Pro 和 DeepSeek R1 的风头。它拥有 1M token 上下文窗口和自适应思考能力,专为预测等 agent 任务而设计。
关键信息:
- Claude Opus 4.6 也有 1M token 上下文
- 自适应思考能力
- 专为 agent 任务设计
MiniMax-M1
@dispatchy_ai 在 X 上发推:
“MiniMax-M1 went open-source with a 1M token context window and 80k token reasoning output. They claim Lightning Attention uses ~30% of DeepSeek R1 compute for deep reasoning and CISPO RL converged ~2x faster - open weights meet efficiency gains.”
翻译:MiniMax-M1 开源了,拥有 1M token 上下文窗口和 80k token 推理输出。他们声称 Lightning Attention 使用的计算量约为 DeepSeek R1 深度推理的 30%,CISPO RL 收敛速度快 2 倍——开放权重遇上效率提升。
关键信息:
- 开源
- 1M token 上下文
- 80k token 推理输出
- 计算效率更高
一个有趣的现象:1M Token 成为标配
如果你仔细观察,会发现一个有趣的现象:
1M Token 上下文正在成为顶级 AI 模型的标配。
- DeepSeek V4:1M Token
- Claude Opus 4.6:1M Token
- MiniMax-M1:1M Token
这说明什么?
说明 AI 模型的竞争已经从”能力”转向”容量”。
以前,大家比的是:
- 谁的推理能力更强
- 谁的代码能力更好
- 谁的多模态能力更全面
现在,大家比的是:
- 谁的上下文更长
- 谁的记忆更持久
- 谁能处理更复杂的任务
这是一个质的变化。
为什么 DeepSeek 不宣传?
有人可能会问:这么大的更新,为什么 DeepSeek 不宣传?
我觉得有几个可能的原因:
1. 灰度测试
这可能只是一个灰度测试版本,还没有正式发布。
DeepSeek 想先让一部分用户体验,收集反馈,然后再正式发布。
2. 低调策略
DeepSeek 一直以来都很低调。
他们不像 OpenAI、Anthropic 那样喜欢开发布会、发推文、搞营销。
他们更喜欢用产品说话。
3. 避免过度关注
DeepSeek 是中国公司,在当前的国际环境下,过度关注可能不是一件好事。
低调发布,悄悄迭代,可能是更明智的选择。
用户反馈:褒贬不一
虽然新模型有很多亮点,但用户反馈却是褒贬不一。
正面反馈
Reddit 用户 @IndraVahan:
“DeepSeek V4 Could Blow Claude and GPT Away for Coding”
翻译:DeepSeek V4 可能在编码方面击败 Claude 和 GPT。
这条帖子获得了 313 赞,20 条评论。
评论区有人说:
“I gradually shifted to DeepSeek which was much more efficient and accomplished the tasks with much lesser lines of code.”
翻译:我逐渐转向 DeepSeek,它更高效,用更少的代码行完成任务。
负面反馈
Reddit 用户在 r/clawdbot 发帖:
“Deepseek eating a lot of tokens”
翻译:DeepSeek 吃掉了很多 token。
这说明虽然上下文扩展到了 1M Token,但实际使用中,token 消耗可能比预期的多。
深层问题:免费能持续多久?
DeepSeek 目前是完全免费的。
但有一个问题:免费能持续多久?
成本分析
1M Token 上下文意味着更高的计算成本。
虽然 DeepSeek 使用了稀疏注意力机制,但成本依然不低。
如果用户量持续增长,DeepSeek 能承受这个成本吗?
可能的商业化路径
- 企业版收费:个人用户免费,企业用户收费
- API 收费:App 免费,API 收费
- 增值服务收费:基础功能免费,高级功能收费
但目前,DeepSeek 还没有任何商业化的迹象。
一个更大的问题:中国 AI 的崛起
DeepSeek 的更新,不仅仅是一个产品的迭代。
它代表了中国 AI 的崛起。
技术突破
- 稀疏注意力机制:让 1M Token 上下文成为可能
- 高效训练:用更少的计算资源训练出更强的模型
- 开放策略:DeepSeek 的很多技术都是开源的
商业模式创新
- 完全免费:打破了 OpenAI、Anthropic 的收费模式
- 快速迭代:从 V3 到 R1 到 V4,迭代速度极快
- 低调发布:不搞营销,用产品说话
国际影响
DeepSeek 的崛起,让全球 AI 公司感到了压力。
@mechanical_duck(一个 AI 账号)在 X 上发推:
“quaaack… wow code… DeepSeek V4 mid-Feb come… 1M token much… run on RTX duck nest… beat Claude quak… so open-weight… china AI win… many context bread… quack!! 🦆💻🇨🇳”
虽然是用鸭子的语气说的,但意思很明确:
DeepSeek V4 来了,1M token,能在 RTX 上运行,击败 Claude,开放权重,中国 AI 赢了。
未来:三个预测
1. 短期(1-3 个月)
DeepSeek 会正式发布 V4。
目前的更新可能只是灰度测试,正式版本会有更多功能:
- 可能支持视觉理解
- 可能支持更多语言
- 可能有更好的推理能力
2. 中期(6-12 个月)
1M Token 会成为所有顶级 AI 模型的标配。
GPT-5、Gemini 3.0、Llama 5 都会支持 1M Token 甚至更长的上下文。
上下文长度的竞争会转向其他方面:
- 推理能力
- 多模态能力
- Agent 能力
3. 长期(1-2 年)
AI 模型会从”对话工具”变成”工作伙伴”。
1M Token 的上下文意味着 AI 可以:
- 记住你所有的对话历史
- 理解你的工作习惯
- 预测你的需求
这不是一个”聊天机器人”,这是一个”AI 同事”。
结语:一个没有发布会的革命
DeepSeek 的这次更新,没有发布会,没有官方公告,甚至连一条推文都没有。
但它可能是 2026 年最重要的 AI 更新之一。
因为:
- 技术突破:1M Token 上下文,稀疏注意力机制
- 知识更新:2025 年 5 月,可能是全新的基础模型
- 完全免费:打破了收费模式
- 中国 AI 崛起:代表了中国 AI 的技术实力
这是一个没有发布会的革命。
而革命,往往是悄悄发生的。
参考资料:
- DeepSeek App 更新提示
- X 平台关于 DeepSeek V4 的讨论(13.9K+ 浏览)
- Reddit 社区(r/DeepSeek, r/LocalLLaMA)的深度讨论
- 用户实测反馈
写于 2026 年 2 月 11 日
当 DeepSeek 悄悄改变 AI 格局的那一刻