国产芯片，能否解决智谱和MiniMax的算力荒问题

发布时间：2026-04-26来源：白鲸实验室

4

月

24

日，

DeepSeek

正式发布新模型

V4

，以开源、低价、高性能给市场带来冲击，智谱与

MiniMax

双双跳水，市值一度跌超

10%

和

12%

。有网友戏称，

DeepSeek

果然是国产大模型最严厉的父亲。

无论是新模型

V4

，还是近期

DeepSeek

的融资消息，无疑都会给智谱和

MiniMax

的股价带来较大波动。

4

月

23

日，我们独家报道

DeepSeek

最新估值达到

3000

亿元，目前这个数字已经得到一位

DeepSeek

内部人士的确认。

当前真正卡住智谱和

MiniMax

的不是别的，而是年初龙虾火爆后带来的算力荒。

一位头部大厂算法人员算了一笔账，在同一个项目里改几行代码，不搭

skills

，

AI

先得读完整套系统的上下文，工程文件、依赖声明和类定义统统加载，单次任务几十万

Token

可能一下就烧完了。去年底同样花

10

块钱能跑完的任务，今年账单上变成了近

20

块。

“真到了需要复杂推理还原问题的时候，真不如自己手写，

AI

的性价比不如大学生，好用还便宜。”今年以来，智谱

API

价格连涨三次，

4

月发布

GLM-5.1

后

Token

价格再度上调

10%

，外版

Coding Plan

月付价格几乎翻倍，算下来，第一季度智谱的

API

定价累计上调约

83%

。

MiniMax

则将之前的

Coding Plan

全面升级为

Token Plan

，新增免费额度减少。

做出同样动作的还有阿里和腾讯，他们都将

Coding Plan

下架换成

Token Plan

。

4

月，阿里云四天内连发三条产品涨价公告，部分项目涨幅最高达

34%

。更早的

3

月，腾讯云部分模型价格涨幅高达

463%

。这意味着，哪怕成为高阶会员，

Token

量大管饱的日子也已经一去不复返了。

智谱

CEO

张鹏上个月在内部会议表示，

“

未来

12

个月最大问题是算力，不是需求。

”

而为了在有限的资源下求生存，

MiniMax

创始人闫俊杰表示，虽然公司同期收入增长了

158.9%

，但公司内部已经不再盲目追求用户量的绝对值，并宣布，截至

2

月，

M2

系列模型的百万

Token

推理成本已较

2025

年

12

月下降了超

50%

。

摩根大通最近将智谱与

MiniMax

同列为“中国

AI

采用周期的结构性受益者”，面对同样的算力挤兑，智谱和

MiniMax

交出了截然不同的答卷。

算力成了大模型厂商的生死线

春节以来，开发者社区的投诉帖几乎没有停过。

Kimi

自

2

月起高峰期常现算力不足，智谱更是一连遭遇了多轮危机，

2

月

GLM-5

上线后调用量暴增，

API

排队蔓延，部分开发者的长链代码生成任务直接中断。

智谱不得不公开致歉，承认“规则透明度不够、

GLM-5

灰度节奏太慢、老用户升级机制设计粗糙”，甚至开启全额退款通道。

4

月

12

日，

MiniMax

正式开源

M2.7

模型，首日完成华为昇腾、

摩尔线程

、沐曦等多款国产

GPU

的

Day-0

适配，宣布通过

MoE

架构

优化显著降低了推理成本。但即便如此，用户们吐槽

MiniMax

服务器繁忙、连续掉线、限流的帖子也不在少数。

这种算力短缺的根源在两端的同时失控。需求端，

OpenClaw

等智能体应用将

Token

消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千

Token

，一个典型的

Openclaw

自动化任务，其

Token

消耗量是传统对话场景的

3

至

5

倍，在文件整理、代码生成、多轮工具调用等环节，单次任务的上下文携带量成倍增长。

根据智谱发布的

2025

年度财报，公司全年实现营业收入

7.24

亿元，同比增长

131.9%

。但营收增速背后是更惊人的亏损扩大，年内亏损达到

47.18

亿元，同比扩大

59.5%

，经调整净亏损

31.82

亿元，同比扩大

29.1%

。研发开支高达

31.80

亿元，其中支付给第三方算力供应商的计算服务费用占据大头。

张鹏在一次

AI

开源前沿论坛上说：“所有的技术，包括智能体框架，在很多场景下可以带来十倍级的效率提升，但前提是算力充足。”在

2026

中关村论坛上，他再次强调：“大模型未来

12

个月面临的最大问题可能是算力。”

这种“增收巨亏”的局面并非智谱独有。闫俊杰也不止一次公开表示，用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司“增收不增利”的窘境来源。

供给端则被死死卡住。

2025

年

5

月，美国商务部升级芯片出口限制，英伟达

H20

被纳入禁售名单。虽然后续

H20

有望重返中国市场，但配额大幅缩减。据

SemiAnalysis

数据，

H100

一年期租赁价格从

2025

年

10

月的约

1.70

美元

/

小时

/GPU

涨至

2026

年

3

月的约

2.35

美元

/

小时，涨幅近

40%

。

我们

独家获悉，某头部大厂更是拿出数百亿的预算从年初就开始求卡，但仍然买卡无门。

据中国信通院数据，

2025

年英伟达在中国数据中心市场的份额已从

2022

年的

95%

下滑至

50%

，而国产

AI

芯片份额从

12%

增长至

25%

。华为昇腾以约

81.2

万块的出货量位居国产第一，市场份额约

49.2%

，但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。

这种供给失衡，让

Token

市场出现了

K

型分化。低成本

“

闲聊型

”Token

价格一降再降，阿里通义千问一度压至

0.0005

元

/

千

Tokens

，字节豆包

0.0008

元

/

千

Tokens

。这些面向基础场景的

Token

，成了黄仁勋口中类似

“

水电煤

”

的基础设施。

而另一端的

“

黄金型

”Token——

长链推理、复杂代码生成、企业私有化部署，

价格却一路走高。智谱的

API

定价去年以来已累计提价

83%

，而市场需求非但没有减弱，

API

调用量反而增长了

400%

。算力这把达摩克利斯之剑，落在了所有厂商的脖子上。

智谱选保毛利，

MiniMax

选保份额

算力短缺如同一道共同的紧箍咒，但智谱和

MiniMax

选择了两种截然不同的解脱路径。智谱的打算很清楚，涨价，筛选，保利润。

张鹏在

3

月的一次活动中表示，低价竞争不利于行业发展，上调

API

价格是成本变化的结果。而从今年

2

月至

4

月，智谱用连续三次上调

API

价格来回应了这个判断：

Coding Plan

套餐涨

30%

，旗舰

API

服务涨

20%

，

GLM-5

上线后涨

10%

，

GLM-5.1

再涨

10%

。

Anthropic

在海外已经划出了一条清晰的参考线。最近，

Anthropic

调整了企业版

Claude Enterprise

的定价模式，从每月最高

200

美元的固定费用，改为每月

20

美元基础费加按实际算力消耗收费。而在涨价的同时，

Anthropic

年化收入从

2025

年

1

月的约

10

亿美元，一年后，

AnthropicARR

突破

300

亿美元，超过

OpenAI

同期约

250

亿美元的规模。

如今，

Anthropic

估值已突破

1

万亿美元，超过了

OpenAI

（同期约

8800

亿美元）。

智谱选择跟上。通过连续涨价筛选出高付费意愿的客户，将有限的算力集中在

Vibe Coding

（氛围编程）向

Agentic Engineering

（智能体工程）演进的高价值场景。

2026

年一季度，智谱

API

定价累计上调

83%

，同期调用量却暴增

400%

，云端

API

业务毛利率从

3.3%

升至

18.9%

。在刚结束的

2025

年财报电话会上，张鹏将智谱定位为 “中国的

Anthropic

”，并提出：“大模型公司商业价值取决于

Token

消耗的规模，而定价权完全取决于模型的智能上界。”

在张鹏看来，能高效处理长链复杂推理任务的高端

Token

永远是稀缺品，而谁掌握了高端

Token

的定价权，谁就能在下一代竞争中占住入口。这正是智谱在毛利率从

56.3%

降至

41%

的背景下，仍坚持聚焦高价值场景的逻辑所在。

MiniMax

则走了一条完全相反的路线，开源、优化、抢规模。

2025

年

10

月以来，

MiniMax

在不到半年的时间内完成了

M2

、

M2.1

、

M2.5

和

M2.7

四代模型迭代。

2026

年

4

月

12

日，

M2.7

在全球开源。这款

2300

亿参数的

MoE

模型在推理时仅激活

100

亿参数，激活率约

4.3%

，极大降低了推理成本。

为了降本，

MiniMax

与华为昇腾、摩尔线程、沐曦、

昆仑芯

等海内外芯片厂商在开源首日完成了

Day-0

适配。摩尔线程基于

MUSA

架构实现了深度调优，在

MTT S5000

上完成高性能推理部署。沐曦曦云

C

系列

GPU

依托全栈自研的

MXMACA

软件栈实现了“模型发布即算力就绪”。

MiniMax

已经拿到了成果。模型调用量爆发，

M2

系列文本模型单日

Token

消耗量在

2026

年前两个月较

2025

年

12

月激增

6

倍以上，

2

月

ARR

已突破

1.5

亿美元。经调整净亏损约

2.5

亿美元，亏损率显著收窄。

但这也是一场危险的赌注。

MiniMaxAPI

客单价明显低于智谱，单位算力的盈利空间被极度压缩。

MiniMax

打的是“以规模换生态”的算盘，闫俊杰的策略是先让

Token

足够便宜，让开发者习惯它的生态，再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长，这条路就可能被高成本堵死。

而低价策略能否支撑

Minimax

在下一代模型研发上与智谱、阿里等巨头竞争，仍是未知数。

破局关键在

“

国产芯片

”

和时间窗口

2025

年度智谱研发开支为

31.8

亿元，算力成本占研发总开支的七成以上，但仍无法满足需求。

GLM-5

单次推理的算力消耗是前代

GLM-4.7

的

3

倍，而国产

GPU

的适配优化尚在推进中。

尽管智谱已完成与华为昇腾、寒武纪等

7

大国产芯片的深度优化，长序列部署成本下降

50%

，整体算力缺口依然巨大。

海外巨头同样承受着巨大算力紧缺的重压。

OpenAI

放弃

Sora

视频生成应用，将算力集中到核心模型开发中。

Anthropic

用锁定

AWS

旗下

Trainium

芯片高达

5

吉瓦的算力资源来换取客户稳定性，不只是传统的风险投资。

算力的“绞索”正在勒紧每一位玩家的脖颈。而在算力的“绞索”被解除之前，智谱和

MiniMax

各自的探索都只是权宜之计，真正的变数是国产芯片的时间窗口。

2025

年，英伟达在中国市场的

AI

加速卡占有率从

2022

年的约

95%

大幅下滑到约

55%

。国产

AI

加速卡总出货量约

165

万张，市占率约

41%

。华为昇腾以约

81.2

万张的出货量断层领跑，占国产份额约

49.2%

。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。

在智谱发布的

GLM-5

中，华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。

更关键的一步可能在

2026

年到来。

2026

年

3

月，华为在合作伙伴大会上正式发布了搭载全新昇腾

950PR

的

AI

训练推理加速卡

Atlas 350

。这款芯片性能据估计可达英伟达

H20

的近三倍，并且对

CUDA

体系的兼容性已大幅提升，字节跳动、阿里巴巴等大厂都计划采用。

这意味着通往国产

GPU

的高质量替代之路已不是纸上谈兵。这次

DeepSeek V4

跳过英伟达

CUDA

生态，适配的是华为昇腾平台，可能动摇英伟达在

AI

算力市场的主导地位，打破其软件生态垄断

。这也正是黄仁勋最近预言的“灾难”。

不过当前DeepSeek自身也卡算力。

V4发布时

官方明确坦言，V4-Pro当前高端算力吞吐有限，自身都受高端芯片供给约束，无法向外大规模输出富余算力。

未来的锚点在于，昇腾

950PR

能否在实际部署中兑现百万级高吞吐与低延迟的承诺，国产芯片是否能在

2026

年实现大规模、稳定的

ToB

商用。假设国产芯片能做到大规模稳定商用，让算力成本骤降，届时低价、规模化的路径无疑将占据上风。

留给国内大模型厂商的问题已然清晰，那就是能否在国产算力芯片全面成熟之前，抢先跑通一条脱离英伟达依赖独立发展的路径。（转载自白鲸实验室）

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。