ZPedia|一文读懂 DeepSeek V4:Agent 能力加冕开源新王,94%幻觉率是暗雷,价格优势不再

DeepSeek V4 的横空出世,再次搅动了全球开源大模型的格局。
在 Artificial Analysis 最新的 Intelligence Index(AII)评测中,DeepSeek 凭借 V4 Pro 与 V4 Flash 的组合,强势回归第一梯队。其中,V4 Pro 以 52 分的成绩位列开源权重推理模型第二,仅次于 Kimi K2.6,宣告了 DeepSeek 在经历一段激烈的行业追赶后,重新回到了全球开源竞技的舞台中央。
以下是Artificial Analysis 测评的核心观点。
1. 智能指数大幅提升 10 分
DeepSeek V4 Pro(Max)在 Artificial Analysis Intelligence Index 中得分 52,较 V3.2 的 42 分提升 10 分,成为仅次于 Kimi K2.6 的第二大开源推理模型。需要补充的是,如果 MiMo-V2.5-Pro 后续像小米其他模型一样开源,它将挤入第二位,DeepSeek V4 Pro 则会位列第三。
V4 Flash(Max)得分 47,低于 V4 Pro,但高于 DeepSeek V3.2。这意味着它虽然仍落后于最前沿模型,但智能水平已经接近 Claude Sonnet 4.6(Max)。

2. 开源模型中领先的 Agent 任务表现
在更接近真实世界工作的智能体任务评测中,DeepSeek V4 Pro(Max)表现领先开源模型。它在 GDPval-AA 测试中获得 1554 分,高于 Kimi K2.6 的 1484 分、GLM-5.1 的 1535 分、GLM-5 的 1402 分,以及 MiniMax-M2.7 的 1514 分。这说明 V4 Pro 的优势并不只体现在抽象推理或问答能力上,也开始延伸到更接近真实工作流的 Agent 执行任务中。

3. 知识能力提升,但幻觉率同步上升
DeepSeek V4 Pro(Max)在 AA-Omniscience 测试中得分 -10,相比 V3.2 Reasoning 的 -21 提升 11 分,主要受益于准确率提升。V4 Flash(Max)得分 -23,整体与 V3.2 接近。
但问题在于,V4 Pro 和 V4 Flash 的幻觉率都非常高,分别达到 94% 和 96%。这意味着当模型不知道答案时,它们几乎总是会继续给出回答,而不是明确承认「不知道」。对于面向 Agent 的模型来说,这一点尤其值得警惕,因为幻觉不再只是回答错误,还可能演变成错误的工具调用、代码修改或业务操作。

4. 比前沿闭源模型便宜,但高于多数开源模型,且较 V3.2 成本明显上升
运行 Artificial Analysis Intelligence Index 时,DeepSeek V4 Pro 的成本为 1071 美元。这使它比 Claude Opus 4.7 的 4811 美元便宜 4 倍以上。
但与此同时,它仍然比多款开源模型更贵,包括 Kimi K2.6 的 948 美元、GLM-5.1 的 544 美元、DeepSeek V3.2 的 71 美元,以及 gpt-oss-120B 的 67 美元。相比之下,DeepSeek V4 Flash 的成本低得多,仅为 113 美元。
因此,V4 Pro 的价格优势主要体现在对比闭源前沿模型时;如果放在开源模型内部比较,它并不算便宜。
5. Token 使用量偏高,是总成本上升的重要原因
DeepSeek V4 Pro 在运行 Artificial Analysis Intelligence Index 时使用了 1.9 亿个输出 token,是目前测试模型中 token 消耗最高的一批。DeepSeek V4 Flash 的输出 token 消耗量更高,达到 2.4 亿个。
这也解释了为什么 V4 Pro 虽然单 token 价格较低,但总运行成本相较其他开源模型仍然偏高。换句话说,大模型的真实成本不能只看 API 单价,还要看模型为了完成任务实际消耗了多少 token。

6. Flash 明显弱于 Pro,但在同等体量下表现突出
DeepSeek V4 Flash(Max)在 Artificial Analysis Intelligence Index 中得分 47,明显低于 V4 Pro。但考虑到它只有 284B 参数,模型体量远小于 V4 Pro,因此在「智能水平与模型规模」的权衡上表现不错,位置接近 MiniMax-M2.7。

作为 DeepSeek 自 V3 以来的架构跃迁,V4 系列明确开启了“双轨并进”的产品策略:V4 Pro 聚焦性能巅峰,以 1.6T 总参数(激活参数约 49B)冲击能力上限;V4 Flash 则主打极致效率,通过 284B 总参数(激活参数约 13B)实现高频场景下的低延迟与低成本。两款模型虽皆支持“思考”与“非思考”模式,但侧重点已然分明。
这一战略拆分,是 DeepSeek 对行业竞争逻辑的一次深刻重构。一年前,DeepSeek R1 系列曾领跑榜单,但随着 Kimi、GLM、MiniMax 等实验室的群雄逐鹿,开源赛道已陷入激烈竞争。
V4 的发布,标志着 DeepSeek 彻底告别了单一维度的模型比拼。
第一印象:DeepSeek V4 是一个明显偏向「工程闭环」的模型
从体验预期上看,DeepSeek V4 不像一个单纯为聊天优化的模型。
过去很多模型升级,用户最容易感知的是三件事:回答更顺、推理更强、幻觉更少。但 V4 的重点不完全在这里。它更像是为长任务、多轮工具调用、代码工程、复杂资料处理和 Agent 执行链条设计的模型。
官方给 V4-Pro 的核心标签是:Agentic Coding 开源 SOTA、世界知识在开源模型中领先、数学/STEM/代码推理超过现有开源模型并接近顶级闭源模型。V4-Flash 则主打接近 Pro 的推理能力、简单 Agent 任务上接近 Pro,以及更小参数、更快响应和更低 API 成本。
这意味着 V4 的产品逻辑不是「一个模型包打天下」,而是非常明确地拆成了两层:
Pro 是重型任务模型,适合复杂代码库理解、长文档分析、多步工具调用、科研/数学/工程推理。
Flash 是日常高频模型,适合问答、摘要、轻量代码、普通 Agent 流程,以及大规模低成本调用。
这个拆分很关键。因为 Agent 时代的大模型不只拼智商,还拼「单位任务成本」。V4 想证明开源模型也可以成为 Agent 基础设施,而不是只在 benchmark 上做「闭源替代品」。

V4 最强的不是聊天,而是长程任务
DeepSeek V4 最明显的升级,是它对长上下文的重新处理。
大模型正在从聊天工具变成工作系统。早期模型主要处理短问短答,现在却要写代码、读论文、分析财报、拆解项目、调用工具、连续推理。任务越复杂,模型面对的信息量越大。代码助手需要理解整个仓库,科研助手需要比较多篇论文,企业知识助手需要串联制度文件、会议纪要、合同和历史决策。这些场景的共同点是:信息很长,任务也不是一次性的。
过去,很多复杂任务依赖 RAG,也就是先从外部知识库中检索几个相关片段,再交给模型回答。RAG 很有用,但它也有天然限制:如果检索漏掉关键材料,模型后面再强也没用;如果片段之间缺少全局结构,模型容易只看到局部证据,看不到整体脉络。对于代码仓库、法律合同、科研综述和长期 Agent 任务来说,仅靠几个片段往往不够。
但长上下文不是免费的。传统 Transformer 的 attention 机制在长序列下会带来巨大的计算压力。上下文越长,KV cache 越庞大,对显存、带宽和推理系统的压力越大。所以,支持百万 token 和高效支持百万 token 是两件事。前者只是窗口变大,后者才决定它能不能真正进入产品。

DeepSeek-V4 的核心价值就在这里。它不是单纯宣称模型可以接收一百万 token,而是试图回答一个更工程化的问题:如何让百万 token 上下文在计算上更可承受。它反复强调 FLOPs 和 KV cache 的下降。对于企业部署、Agent 系统、代码助手和科研工具来说,长上下文能力只有在成本可控时才有意义。
Hugging Face 对 V4 的技术解读中提到,V4 的关键不只是 1M 上下文窗口,而是通过新的注意力机制显著降低长上下文推理成本。在 1M token 场景下,V4-Pro 的单 token 推理 FLOPs 约为 DeepSeek-V3.2 的 27%,KV cache 内存约为 10%;V4-Flash 则进一步降到 10% FLOPs 和 7% KV cache。相较于常见 grouped query attention 架构,V4 的 KV cache 大约只需要 2% 的缓存规模。

这句话翻译成普通用户能感知的体验,就是:V4 不只是「能塞进很多材料」,而是更有机会在塞进很多材料之后,仍然保持可用的速度、成本和稳定性。
架构看点:DeepSeek V4 把长上下文做成了 Agent 的基础能力
DeepSeek-V4 并不是推倒重来。它仍然基于 Transformer 和 MoE,继承 DeepSeekMoE 与 Multi-Token Prediction,同时引入三项关键升级:混合注意力机制、mHC 残差连接和 Muon 优化器,attention 层采用 CSA 或 HCA,前馈层使用 DeepSeekMoE,残差路径通过 mHC 增强。

其中最关键的是 CSA 和 HCA。CSA 是 Compressed Sparse Attention,思路是先压缩,再选择:先把连续 token 的 KV 信息压缩成更少的 entry,再通过轻量 indexer 选择最相关的 top-k 压缩块进行 attention。HCA 是 Heavily Compressed Attention,压缩得更激进,把更长一段历史合并成更少的记忆单元。简单说,CSA 更像精准检索,HCA 更像长期压缩记忆。二者结合后,模型既能访问长程信息,又能控制计算成本。
为了避免长程压缩带来近期信息损失,DeepSeek-V4 并没有只依赖 CSA/HCA 这类压缩注意力,而是额外加入了 sliding window attention 分支,用来保留近邻 token 的高分辨率表示。这样做的意义在于,模型在处理百万 token 级上下文时,不需要对所有历史信息都用同一种精度保存。距离当前问题较远的内容,可以通过压缩和稀疏选择降低计算成本;而最近的上下文通常包含指令约束、局部推理步骤、代码细节或正在展开的对话状态,因此需要保留更完整的 token 级信息。简单说,长程信息靠压缩与选择来降低成本,近程信息靠滑动窗口来保留细节,这构成了 DeepSeek-V4 处理超长上下文的基本逻辑。
mHC 则主要解决深层模型训练中的稳定性问题。随着模型层数加深,普通 Transformer 的残差连接虽然能帮助信息传递,但残差流本身仍可能出现信号累积、尺度失衡或层间交互不足的问题。mHC 的思路是把原本单一路径的残差流扩展为多个通道,让不同层之间的信息可以通过可学习方式进行混合。这样一来,模型不仅能保留浅层信息,也能更灵活地调配不同深度的表示。为了进一步避免深层网络中信号被不断放大,DeepSeek-V4 还将残差映射矩阵约束在双随机矩阵流形上,使信息混合过程更加稳定,从而提升大规模模型训练和长链推理时的可靠性。
Muon 优化器 则对应训练效率和收敛稳定性的提升。DeepSeek-V4 并没有完全放弃 AdamW,而是采用混合优化策略:对部分对稳定性更敏感或更适合 AdamW 的模块继续使用 AdamW,对大部分矩阵参数则使用 Muon。Muon 的核心思想,是对参数更新矩阵进行近似正交化,让更新方向更加稳定,减少不同维度之间的冗余和干扰。与此同时,它还结合了 Nesterov trick、weight decay 和 update RMS rescaling 等机制,用来改善大规模训练中的收敛速度、尺度控制和泛化表现。
换句话说,Muon 不是单纯为了“训练更快”,而是为了让超大规模 MoE 模型在长上下文、高参数量和复杂数据分布下更稳定地学到有效能力。
Agent 能力:V4 的主战场不是「问答」,而是「连续执行」
官方明确表示,V4 已经集成到 Claude Code、OpenClaw、OpenCode 等 AI Agent 工具中,也被用于 DeepSeek 内部的 agentic coding。
更关键的是,V4 对 Agent 的优化不是简单的「支持工具调用」。它在训练和交互范式上做了更深的调整。
Hugging Face 文章提到,V4 在带工具调用的多轮流程中,会跨用户消息保留 reasoning content,使模型在长程 Agent 工作流里能够维持累计推理状态;同时,V4 引入 |DSML| 特殊 token 和 XML 风格工具调用格式,以减少 JSON-in-string 工具调用中常见的转义错误和参数解析失败。
很多 Agent 的失败,并不是因为模型「不聪明」,而是因为工程链路太脆弱:参数格式错了、字符串转义坏了、工具返回读错了、前一步计划丢了、后一步不知道为什么执行。模型越频繁调用工具,这类小错误就越容易累计成任务失败。
V4 的设计思路是,把 Agent 的易错点提前纳入模型训练与接口设计中。
代码能力:V4-Pro 已接近「开源 Agentic Coding 第一梯队」
从公开基准看,V4-Pro 的 Agent 和软件工程表现相当突出。
Hugging Face 的数据称,V4-Pro-Max 在 Terminal Bench 2.0 上为 67.9,领先 GLM-5.1 和 K2.6,但落后于 GPT-5.4-xHigh 与 Gemini-3.1-Pro;在 SWE Verified 上解决率为 80.6,几乎与 Opus-4.6-Max 和 Gemini-3.1-Pro 持平;在 MCPAtlas Public 上为 73.6,仅略低于 Opus-4.6-Max;Toolathlon 得分 51.8,高于 K2.6、GLM-5.1 和 Gemini-3.1-Pro。
这组成绩透露出一个清晰信号:V4-Pro 在传统知识问答上未必全面击穿闭源巨头,但在 Agentic Coding 这类更接近真实工作流的任务里,已经进入非常靠前的位置。
这对开发者的意义不小。
过去国产开源模型在代码场景里经常有一个问题:写小函数可以,解释代码可以,但一进入复杂 repo、跨文件修改、运行测试、修复回归,就明显弱于 Claude、GPT 或 Gemini。
V4 如果能在真实项目中稳定接住这类任务,就不只是「会写代码」,而是开始具备「参与工程流程」的能力。
当然,这里也要保持克制。Benchmark 不等于真实生产环境。复杂工程任务中,模型还会面对依赖安装、私有代码规范、模糊需求、测试不完整、历史包袱和安全约束。
V4 能否在企业真实代码库里替代一线闭源模型,还需要更多长期使用反馈。但至少从方向上看,V4 已经不是一个只会刷 HumanEval 的模型了。
价格测评:DeepSeek 最熟悉的刀,还是成本
DeepSeek 的杀伤力一直不只是性能,而是性能和价格的组合。
官方 API 价格显示,V4-Flash 每 1M input tokens 缓存命中价格为 0.028 美元,缓存未命中为 0.14 美元,输出为 0.28 美元;V4-Pro 每 1M input tokens 缓存命中为 0.145 美元,缓存未命中为 1.74 美元,输出为 3.48 美元。两个模型均支持 1M 上下文,最大输出为 384K。
尤其是 V4-Flash,它不是一个传统意义上的「缩水版」。如果它在普通推理、简单 Agent、长文档处理和日常代码任务上能接近 Pro,那么它会成为大量应用开发者的默认选择。
对企业来说,V4-Pro 负责复杂任务,V4-Flash 负责高频任务,二者组合起来,会形成一套非常实用的成本结构。
V4 的另一层意义,挑战 CUDA 的默认规则
DeepSeek V4 还有一个不能忽略的背景:国产算力。
Reuters 报道称,DeepSeek V4 Preview 被适配到华为 Ascend AI 芯片上,V4 分为 Pro 和 Flash 两个版本,其中 Pro 面向复杂任务,Flash 更快且更具成本效益。这被视为中国在降低对外国 AI 技术依赖、构建自给自足生态方面的重要一步。
这件事的意义,超过模型本身。
过去开源大模型生态有一个隐含前提:最优先适配 CUDA,最核心的训练和推理优化都围绕英伟达生态展开。即便模型是开源的,真正跑起来的基础设施也高度依赖英伟达。
DeepSeek V4 如果能在华为昇腾生态上形成稳定高效的训练与推理路径,就意味着中国大模型产业第一次更认真地尝试「模型—框架—芯片—应用」的闭环。
这不是说国产算力已经完全替代英伟达。现实情况仍然复杂,软件生态、开发体验、性能稳定性、集群规模、工具链成熟度都需要时间。但 V4 至少释放了一个信号:未来中国大模型公司的竞争,可能不只是模型参数和榜单排名,而是整个算力底座的协同能力。
短板与风险:V4 仍然不是完美模型
DeepSeek V4 的优势很明显,但它的短板也需要写清楚。
第一,V4 仍然主要是文本与代码模型,并不具备音频、视频等完整多模态能力。相较于 OpenAI、Google、Anthropic 乃至阿里、字节在全模态方向上的推进,DeepSeek V4 的产品边界仍然更偏语言、代码、推理和 Agent。
第二,V4 的长上下文能力需要真实场景验证。1M token 是上限,但不是所有任务都能从 1M 上下文中受益。长上下文模型常见问题包括中段信息衰减、引用错位、局部细节遗忘、成本不可控。Hugging Face 引用的 MRCR 8-needle 结果显示,V4-Pro-Max 在 256K 以内保持较高准确率,但到 1M 时准确率下降到 0.59。

第三,V4 的 Agent 能力很依赖工具生态适配。它引入新的工具调用格式与 reasoning 管理方式,这对官方生态是优势,但对第三方框架也意味着适配成本。Hugging Face 也指出,一个开放问题是社区工具 harness 如何适配 |DSML| schema,以及 interleaved thinking 的收益能否迁移到域外 Agent 框架。
大模型竞争正转向上下文效率与系统工程竞争
DeepSeek 的技术演进,始终围绕一个核心目标展开:用更高效率获得更强能力。早期 DeepSeek LLM 奠定了通用大模型基础,DeepSeek-Coder 强化了代码能力,DeepSeekMath 将能力拓展到数学推理;随后,DeepSeekMoE 通过专家混合架构提升参数利用效率,DeepSeek-V2/V3 进一步把 MoE、MLA、多 token 预测和低成本训练推向系统化阶段。
到了 DeepSeek-R1,技术主线从预训练效率延伸到强化学习推理能力,模型开始通过长链推理提升复杂问题求解表现。而 DeepSeek-V4 则可以看作这条路线的继续推进:在已有 MoE、推理和工程优化基础上,把重点进一步转向长上下文效率、KV cache 压缩和系统级可部署性。
DeepSeek-V4 的行业意义,不只是发布了一个更强模型,而是提示大模型竞争正在换赛道。过去外界讨论模型,常常围绕参数规模和榜单分数。但当模型进入真实工作流,问题会变得更工程化:它能不能读完整个代码仓库,能不能处理复杂文档,能不能在长任务里保持状态,能不能把推理成本压到可接受范围。
DeepSeek-V4 的路线说明,未来长上下文模型不会只是把窗口越做越大。更现实的路线,是把长上下文拆解为压缩、索引、稀疏选择、局部窗口、KV cache 管理和硬件友好计算。科研助手可以从单篇论文总结走向多论文综合分析,代码助手可以从函数级补全走向仓库级理解,企业知识库可以从片段式问答走向跨文档推理,Agent 系统则可以拥有更长的任务链和更稳定的历史状态。
这并不意味着 RAG 会消失。更可能出现的是新分工:RAG 负责从外部知识库粗筛材料,长上下文模型负责深度阅读和跨材料推理,模型内部的压缩注意力负责降低计算成本。
同时,DeepSeek-V4 也说明,大模型公司越来越像系统公司。模型结构只是其中一环,训练框架、并行策略、kernel、量化、KV cache、推理调度和硬件适配同样重要。官方报告中提到的 MoE 通信计算重叠、TileLang、确定性 kernel、FP4 量化感知训练、异构 KV cache 和 on-disk KV cache storage,都说明百万 token 背后是完整计算栈的竞争。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。


