华为昇腾、海光信息、寒武纪等集体响应,DeepSeek-V4迎来芯片朋友圈

近日,深度求索公司发布DeepSeek-V4预览版,并同步开源模型权重。这是一次重要的技术更新——两款模型、百万上下文、极低推理成本,每一个指标都引人注目。与此同时,华为昇腾、寒武纪、海光信息、摩尔线程等多家国产AI芯片厂商,在模型发布的当天就完成了Day 0适配。
业界指出,过去,这种“模型一出来,芯片就能跑”的速度,基本只属于英伟达。如今国产芯片做到了,这意味着大模型与国产算力之间的协同,已经从“追赶时差”进入了“同步起跑”的新阶段。

DeepSeek-V4:百万上下文与双版本布局
DeepSeek-V4系列包含两款模型,DeepSeek-V4-Pro总参数1.6万亿,每次推理激活490亿参数,定位对标顶级闭源模型,适用于复杂推理、智能体(Agent)及长文本处理。DeepSeek-V4-Flash总参数2840亿,激活130亿参数,主打高性价比,适合高并发、轻量化场景。
在核心技术方面,DeepSeek-V4原生支持100万token上下文。通过混合注意力机制(CSA+HCA)和稀疏注意力(DSA),大幅降低计算与显存需求,推理成本显著下降。同时,模型已为华为昇腾950芯片完成适配,预计下半年昇腾950超节点批量上市后,V4-Pro的价格将进一步下调,服务吞吐能力持续提升。
在性能表现上,DeepSeek-V4在编码与数学评测中表现突出。LiveCodeBench、Codeforces等竞赛编程评测中,它超越了多数闭源模型,数学推理能力接近顶尖水平。在Agent能力方面,模型在简单任务中表现优异。
DeepSeek-V4支持OpenAI和Anthropic接口格式,价格大幅低于闭源模型。模型权重开源,支持本地部署,满足数据安全需求。未来规划方面,深度求索将持续优化Agent场景性能,缩小与闭源模型的差距。
多家国产芯片厂商完成Day 0适配
发布当天,多家国产芯片厂商完成了Day 0适配。Day 0指大模型上线当天,算力已完成全链路兼容、性能优化与稳定性验证,开发者开箱即用,无需额外等待。过去只有英伟达能做到这一点,其他GPU往往滞后数月。此次DeepSeek-V4发布当天,国产芯片集体实现了这一目标。
●华为昇腾:昇腾A2、A3及950全系列产品适配DeepSeek-V4-Pro和DeepSeek-V4-Flash。昇腾950通过融合kernel和多流并行技术降低Attention计算与访存开销,大幅提升推理性能,结合多种量化算法,实现高吞吐、低时延的推理部署。昇腾超节点同时提供训练参考实现,便于用户快速微调。
●寒武纪:基于vLLM推理框架完成Day 0适配,适配代码已开源至GitHub社区,支持DeepSeek-V4-Pro和DeepSeek-V4-Flash。
●海光信息:海光DCU(深算系列)完成对DeepSeek-V4的Day 0适配,并对模型进行深度调优,形成“模型发布—芯片适配—产业落地”的闭环,提供即取即用的部署方案。
●摩尔线程:4月24日,摩尔线程联合北京智源人工智能研究院,基于旗舰级AI训推一体智算卡MTT S5000与FlagOS全栈软件体系,完成DeepSeek-V4系列两款模型推理“Day-0”适配,并在魔搭社区正式发布Pro和Flash两个版本的镜像,为开发者与行业用户带来开箱即用的国产化部署方案。
其他完成适配的厂商:沐曦股份完成DeepSeek-V4-Flash全量适配与推理部署;百度昆仑芯完成DeepSeek-V4-Flash适配;阿里平头哥在真武芯片上完成DeepSeek-V4-Flash适配;天数智芯完成DeepSeek-V4-Flash适配。以上厂商覆盖了国产主流AI芯片平台。
结 语
DeepSeek-V4的发布让开源大模型迈入了百万上下文普惠的门槛,国产芯片的集体响应更增添了这一事件的份量。展望未来,随着推理成本的进一步下降和Agent场景能力的持续提升,开源模型与国产芯片的深度协同有望释放更大潜力,为AI应用提供更加自主、高效的基础设施支撑。
推荐阅读

先进封装产业格局加速重塑

国内AI芯片再掀高潮!

存储巨头错位冲刺

成熟制程告别低价时代?







