DeepSeek过了算力的河，美团LongCat正在弯腰造船

发布时间：2026-04-30来源：豹变

Token，是未来数字世界最核心、最值钱的大宗商品。

2026年GTC大会上，黄仁勋这样定义AI时代的底层通货，而数据中心就是生产智能的工厂。

过去几年，全球绝大多数这样的

“工厂”都依赖同一套设备：英伟达的GPU与CUDA生态。当霍尔木兹海峡的开放与关闭，影响地缘政治与能源安全格局，全球AI市场的Token供给也需要回答：算力供应链出现单点依赖，如何保障

Token的稳定产出

？

4月24日上午，DeepSeek V4正式发布，其官方技术报告明确将华为昇腾950PR写入硬件验证清单，实现了从英伟达CUDA到国产算力的全栈迁移。下午，

美团

LongCat-2.0-Preview开放测试，这是目前唯一公开确认由国产算力完成万亿参数预训练的大模型，训练全程动用了5万至6万张国产算力卡

，

其

训练

规模

是

迄今为止

最大

的

。

两款模型在同一天跨入

“万亿参数俱乐部”，更关键的是，这意味着一条自主的“国产Token”供应链，正在英伟达体系之外加速接通。

理解这一天意味着什么，需要拆开来看。

万亿参数俱乐部的新

玩家

过去一段时间里，万亿参数如同大模型的

“珠峰”。玩家们想

登顶

，需要刷美国技术栈的

“装备”，尤其离不开英伟达。

Open AI、Anthropic等硅谷独角兽，无不是英伟达H100/A100集群上的“付费玩家”。凭借软硬一体的CUDA生态系统，英伟达在全球AI训练负载市场中占据了90%以上的绝对垄断地位。

对中国

AI企业而言，这有诸多不确定性。近年来，

美国对华高端

AI芯片的出口管制持续收紧，从最初的A100、H100禁售，延伸至特供版H20的许可限制，到今年4月，美国高端芯片实质对华禁售。

即便通过其他渠道拿到芯片，也随时面临升级路径被切断的风险。

至此，

算力不再只是支出成本，也是生存成本

。

2026年4月24日，备受关注的

DeepSeek V4发布

，

同日美团

LongCat-2.0-Preview启动开放测试，双双加入

了

“万亿参数模型”的行列。

这两个大模型用不同方式，实现了国产算力替代的进展。

DeepSeek V4的早期训练基于英伟达CUDA架构和GPU硬件，之后全栈迁移至华为芯片。V4适配的华为昇腾950PR推理芯片，甚至在低精度推理中展现出超越通用GPU的效率。

同期进行测试的

LongCat-2.0-Preview选择了另一种方式，这是目前唯一由国产算力训练的万亿参数大模型。其训练与推理全程依托国产算力集群独立完成，动用的国产算力卡数量在5万至6万张之间，是国产算力上完成的规模最大的训练任务。

从

技术层面

来看，

DeepSeek V4和

LongCat-2.0-Preview均采用MoE架构，支持1M（100万token）超长上下文窗口，单次推理可处理数百万字输入，处理量级与GPT-5.5处于同一水平。两款模型在知识容量、长文本理解及复杂逻辑推理的上限上，已正式跨入全球第一梯队。

没有采取行业通行的

“堆算力”路线，DeepSeek V4和

LongCat-2.0-Preview都是通过

架构优化

，对每一张国产卡算力进行极致榨取，同时它们也用实践证明，

极致优化算力效率，可以抵消硬件的账面差距。

V4通过混合注意力架构（CSA + HCA）、Muon优化器等底层架构创新，在上下文长度放大8倍的前提下，算力消耗比V3.2降低七成以上。

LongCat-2.0-Preview每token激活参数约48B，

从

一些

测试

反馈

来看，

在保持

较高

性能的同时，

实现

了

不错

的推理效率。

效率革命最终转化为颠覆性的商业定价。

DeepSeek V4最新的API定价，V4 Flash每百万tokens输入（缓存命中）价格为0.02元，V4 Pro为0.025元。海外社交媒体上，有网友表示，这是从Claude或者GPT迁移到DeepSeek的最佳窗口期。

两款模型的发布，

引发了国产算力适配的连锁反应

，国产算力替代

逐渐

成为趋势

。

从华为昇腾、百度昆仑芯、寒武纪思元、海光信息

DCU到阿里平头哥，国产AI芯片在性能与生态上持续迭代；摩尔线程、壁仞科技、沐曦股份等创业企业也在加速追赶。

TrendForce

预测，

2026年

国产芯片在高端市场

的份额将增长到

70%，

行业对

国产算力

的期待，不再停留在

“可用”层面

。

算力突围前后

中国

AI厂商们加速布局国产替代，除了此前说到的美国高端芯片出口管制等政策压力，还有一个重要的考量：

算力荒传导至价格端，

导致算力变得越来越贵。

中信证券指出，

Token调用量井喷带来的是算力需求极大爆发，与此同时供给侧受到各类硬约束短期边际增量有限，目前国内外均出现了严重的算力荒。

而中国

AI用户的算力消耗极其巨大，

根据

OpenRouter的数据， 2026年3月30日-4月5日，中国AI模型的周调用量突破12.96万亿Token，是同期美国的4.3倍

。

如此庞大的需求，

如果长期高度依赖单一的“

英伟达+台积电”供应链，将面临供应受限与价格持续上涨的双重风险。

这种结构性矛盾，使得国产算力替代不再只是

“备选题”，而是

“必答题”。然而，替代之路向来艰难。

其难点在于抛弃现成的代码库、编译和调试工具，从

“零”开始。

英伟达

CUDA经过20年积累，拥有超400万开发者和成熟的

cuBLAS、cuDNN、NCCL库。国产

算力平台

的算子库覆盖度、优化

深度以及测试工具都不完整，

需要工程团队进行大量底层开发与调试工作

。

另一个难点在于硬件的并行计算

。由于单卡性能

存在差距

，国产芯片

想要实现同样的计算性能，势必要并行更多硬件，而算力硬件并行容易带来故障。

在大模型训练中，集群规模一旦扩大至万卡级别，故障概率呈指数级上升，任何微小的计算错误、通信延迟或数值精度偏差，都会在并行运算中指数级放大，导致整个训练任务中断或模型收敛失败。

LongCat-2.0-Preview在5、6万张国产集群上完成万亿参数MoE模型的稳定训练，意味着团队必须在并行策略、通信拓扑、混合精度训练及容错机制上进行深度自研与调优。

这是对国产算力系统工程能力的一次

高强度的

压力测试。

工程能力还只是冰山一角，芯片设计制造、软件栈乃至应用，需要更多产业力量的长期投入。来自互联网巨头、产业资本与风险投资的资金，成为这些长期进化背后的重要支撑。

以美团为例，近几年在算力、科技硬件和大模型等领域进行了广泛的早期投资。芯片方面，美团投资了摩尔线程、沐曦股份、紫光展锐、爱芯

元智

、荣芯半导体等众多企业，覆盖了多家国产

GPU头部和“国家队”级别的半导体公司。

这些企业

的技术方向

各有侧重：摩尔线程与沐曦股份聚焦通用

GPU设计

；紫光展锐在移动通信与物联网芯片领域根基深厚，为端侧

AI提供底层连接能力；爱芯

元智

专注边缘算力、

AI视觉芯片

；荣芯半导体则涉足晶圆代工，

立足于

芯片的产能

提升

。

美团还同时投资了包括宇树科技、银河通用、星海图在内的多家具身智能公司和科技硬件公司

。

从大模型上游的芯片设计制造、到大模型研发，再到

AI在各个领域的应用，

用王兴的话来说，

美团将

AI视为战略机遇

。

美团的密集投资并非孤例，它所折射的，是中国科技资本对国产算力赛道乃至未来科技发展的

系统性

布局

。

模型

在国产

算力上

跑通了，然后呢？

当国产芯片铺开、万亿参数模型跑通，本土

AI能否走向“更好用”阶段，面临着数据

层面的挑战

。

一方面，是工程反馈数据。

当超大规模

AI模型在国产芯片集群上训练时，会暴露出各种问题

，

比如某些计算环节精度有误差、芯片之间数据传输太慢、软件编译优化不到位、多卡并行时通信通道拥堵、低精度计算时数值丢失等。

技术团队逐一攻克这些问题的过程，本身就是一场对国产芯片软硬件的大规模测试。每一个被修复的bug、每一段被调优的通信协议，都会反馈给国产芯片厂商，推动下一代硬件的改进和软件栈的成熟。

对

LongCat-2.0-Preview这样的

“原生国产模型”

来说

，从

训练阶段起便全程依托国产算力集群完成，

产生的工程反

馈

较为

完整

和真实

。这种

“模型反哺芯片”的闭环，

有利于

国产算力生态

向下扎根

。

另一方面，

大模型需要物理底座，

和具体任务、

真实世界产生高质量

的

数据

互动

。

特斯拉凭借全球最大的真实驾驶数据库，构建了其自动驾驶的核心基石，从真实世界采集、到仿真训练、再到算法迭代的

“Real-to-Sim-to-Real”飞轮，同时驱动了自动驾驶汽车与人形机器人的进化。

同样的

逻辑，正在一个更复杂

高频

，

贴近日常生活的

场景

展开，那

不

是

加州的高速公路，而

是

中国城市的街头巷尾。

美团拥有全国

2800多个市县的即时配送网络，覆盖中国最复杂的物理环境

。美团无人机已累计完成商业订单超

78万笔，国内外开通70条航线。美团无人车

已至少

已完成

550万单配送任务，自动驾驶总里程突破1900万公里。

无人机在楼宇间穿行时的视觉避障数据、无人车在复杂路况下的实时决策轨迹、骑手与机器协同调度中的动态优化样本，都是高价值、高密度的真实世界数据。

这些是

LongCat大模型

持续进化的养料，也

是

国产算力芯片

在严苛

环境中验证可靠性、能效比的真实环境。

同一天里先后发布和开放测试的DeepSeek V4与LongCat-2.0-Preview，构成了

国产算力进化

的一体两面。前者以开源、低价与通用能力，证明了国产算力可支撑全球顶尖的基础模型；后者以原生国产训练、万亿参数规模与物理世界闭环，证明了国产算力集群可独立完成极限

的

工程任务。

这不仅仅是算力焦虑

下的替代叙事，更是一场

“主动定义”的转身，

独立生长、正向循环

的中国

AI产业链，

还需要

长期

努力，

但

正在加速成型

。

（来源：豹变）

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。