新版本发布，DeepSeek再掀效率革命｜甲子光年

发布时间：2026-04-24来源：甲子光年

更便宜、更快，向Agent和国产替代更进一步。

作者｜卫琳聪周悦

终于，DeepSeek-V4 来了。

距离上次版本发布已经过去近5个月，期间多次有DeepSeek新版本发布的消息传出，但都干打雷不下雨，等待的空气里不免泛起一些怀疑。

4月24日，DeepSeek-V4 预览版正式上线并同步开源，官方新闻稿里直接宣称“迈入百万上下文普惠时代”。

此次发布的版本包含两款MoE语言模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。

前者总参数1.6T、激活参数49B，后者总参数284B、激活参数13B，两者均支持一百万token 上下文。

如果单看百万上下文的能力，在V4之前市场上已有多款模型能够实现，国外如谷歌Gemini ，国内如阿里Qwen、月之暗面Kimi等。

DeepSeek-V4 令人惊艳的地方，是又一次带来效率革命，在性能提升的同时实现成本下降，尤其是让Agent更便宜成为可能。

更重要的是，V4为打破算力束缚提供了更大可能性，大模型的算力底座从英伟达向华为迈出了坚实一步。

1.转向Agent

DeepSeek官方表示，V4在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

其中，DeepSeek-V4-Pro性能比肩顶级闭源模型。

在世界知识测评中，DeepSeek-V4-Pro大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。在推理性能上，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了世界顶级闭源模型相当的成绩。

不过，技术报告显示，最大推理强度模式DeepSeek-V4-Pro-Max性能仍略逊于GPT-5.4和Gemini 3.1-Pro，这表明其发展轨迹大致落后于最先进的前沿模型约3到6个月。

DeepSeek-V4-Pro-Max与同类模型的基准性能对比

值得注意的是，DeepSeek-V4-Pro的Agent 能力大幅提高。

在对DeepSeek-V4技术报告的深入分析中，「甲子光年」注意到，V4在更明显地转向Agent任务。从V3.1到V3.2，DeepSeek已经在强化工具调用和Agent能力，到了V4，这条线更清楚。

技术报告里出现了工具调用格式、推理内容管理、Quick Instruction、Agent沙箱基础设施，以及Search、White-Collar Task、Code Agent等真实任务评测。重点考察模型能不能在多步任务中低成本地调用工具、保留状态、继续执行。

在Agent 能力提高的同时，V4提供的价格相当实惠。缓存命中场景下，Flash版输入成本低至0.2元/百万Token。对于需要大量、多轮次Token交互的Agent应用来说，这无疑是降低成本的好消息。

能力提高、价格下降，毫无疑问，V4在瞄准Agent 发力，也将进一步推动Agent 的普及。

2.更便宜、更快

DeepSeek-V4系列此次表现出的最大特点，是在长上下文场景中极高的效率。

在1M上下文设置下，V4-Pro的单token推理FLOPs只有V3.2的27%，所需KV缓存空间也仅为其10%。

而参数激活数量更少的DeepSeek-V4-Flash则进一步提升了效率：在百万上下文中，其单token推理FLOPs仅为DeepSeek-V3.2的10%，KV缓存容量仅为7%。

DeepSeek-V4系列与DeepSeek-V3.2的推理FLOPs计算量及KV缓存容量

基于这种进步，DeepSeek官方宣布，“从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。”

这带来了什么？最直观的就是价格便宜。

处理一个Token所需的总计算量骤降，直接导致在云端处理每一条请求的电力、硬件磨损和运营成本都断崖式下降。这是DeepSeek敢于将API定价打到行业地板价。

DeepSeek V4-Flash输出价为2元/百万token，不到同天发布的GPT-5.5 Pro输出价（180美元）的千分之二。

除了更便宜，模型也会更快。KV缓存占用降低，也有助于提升并发能力，并在一定程度上改善长上下文请求的响应效率。

让或许能让许多曾经“奢侈”的应用场景成为现实。例如，将整个代码库塞进上下文进行跨文件的“智能体编程”（Agentic Coding）、让AI进行长时间的自主规划与反思等。

效率的提高源自工程层面的创新。

「甲子光年」认为，在延续底层工程哲学的基础上，V4的重点进一步转向两个问题：一是如何低成本支持百万token上下文，二是如何让更复杂的模型结构和后训练流程稳定运行。

最核心的结构创新是混合注意力机制（Hybrid Attention），这让V4的长上下文效率大幅提升。

大模型在生成内容时，需要不断回看此前上下文。上下文越长，需要保存和调用的KV缓存就越多，每生成一个新Token时的推理开销也会随之增加。DeepSeek-V4的思路是，将长上下文分层处理，将压缩稀疏注意力（CSA）与重度压缩注意力（HCA）相结合。

具体来说，V4将压缩稀疏注意力（CSA）和重度压缩注意力（HCA）结合：CSA先压缩KV信息，再筛选与当前query最相关的部分参与计算；HCA则以更高压缩率保留远距离上下文的粗粒度信息。同时，滑动窗口注意力（SWA）处理近处上下文细节，弥补压缩机制可能导致的局部信息损失。

通俗地说，传统注意力机制更像把整本书逐页摊开，每次答题都重新翻一遍；V4则更像更像是一个智能索引，把近处内容保留原文，把远处内容压缩成章节摘要。

另一项核心架构创新是流形约束超连接（mHC），用于增强底层稳定性。混合注意力机制解决的是模型“怎么看长文本”，mHC解决的是模型内部信息“如何稳定传递”。

技术报告中提到，通过重计算、融合算子等工程优化，mHC带来的额外训练时间开销被控制在约6.7%。这表明它并非单纯的理论构想，而是适配V4大规模生产训练的实用设计。

DeepSeek对V4的架构很有信心，表示其性能可与GPT-5.2和Gemini-3.0-Pro相媲美，确立了其作为处理复杂推理任务的高性价比架构的地位。

DeepSeek-V4系列的整体架构

3.加速国产替代

另一个值得注意的地方是，此次DeepSeek-V4与华为的关联更强。

技术报告中提到一个细节：DeepSeek的细粒度专家并行优化方案已经在英伟达GPU和华为昇腾NPU上验证。

并且，这套方案在通用推理负载中带来1.50—1.73倍加速，在强化学习采样和高速智能体服务等低延迟场景中最高达到1.96倍加速。

这并不等于V4全栈已经完全适配昇腾，但意味着昇腾950超节点对V4-Pro的意义不只是增加算力，也在于提升多卡协同能力。若后续供给和适配顺利，V4-Pro的吞吐和成本空间有望改善。

DeepSeek在V4发布的官宣文章中，用一行小字写道：预计下半年昇腾950超节点批量上市后，pro的价格会大幅下调。

另一方面，技术报告还提到，DeepSeek-V4系列的路由专家参数均采用FP4精度。虽然在现有硬件上，FP4×FP8运算的峰值FLOPs性能与FP8 × FP8运算相同，但从理论上讲，在未来硬件上其效率可提高三分之一，这将进一步提升DeepSeek-V4系列的运算效率。

据「甲子光年」观察，从V3开始，DeepSeek就没有单纯依赖参数规模，而是持续优化训练效率、显存占用和硬件利用率。在训练工程上，V4引入Muon优化器，并进一步使用FP4/FP8低精度训练。前者用于提升收敛速度和训练稳定性，后者用于降低显存、带宽和推理成本。

这可谓DeepSeek-V4 在技术选型上的一个“伏笔”：它在当前硬件上选择了成熟的 FP8×FP8 路线，但架构设计已为未来的 FP4×FP8 混合精度运算做好了准备，一旦硬件成熟，效率将立刻跃升。

这意味着 V4 未来有望在单卡上运行更大模型，推理成本也有望继续下降。

同时，基于DeepSeek的高效架构，即使国产AI芯片单卡算力绝对值不如英伟达等顶级产品，也能凭借其高吞吐、低显存占用的优势运行大模型。

这无疑进一步打破了算力束缚，国产替代的步伐加快了。

（封面图由AI生成，文中配图来自：DeepSeek）

END.

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。