国产芯片,能否解决智谱和MiniMax的算力荒问题

4
月
24
日,
DeepSeek
正式发布新模型
V4
,以开源、低价、高性能给市场带来冲击,智谱与
MiniMax
双双跳水,市值一度跌超
10%
和
12%
。有网友戏称,
DeepSeek
果然是国产大模型最严厉的父亲。
无论是新模型
V4
,还是近期
DeepSeek
的融资消息,无疑都会给智谱和
MiniMax
的股价带来较大波动。
4
月
23
日,我们独家报道
DeepSeek
最新估值达到
3000
亿元,目前这个数字已经得到一位
DeepSeek
内部人士的确认。
当前真正卡住智谱和
MiniMax
的不是别的,而是年初龙虾火爆后带来的算力荒。
一位头部大厂算法人员算了一笔账,在同一个项目里改几行代码,不搭
skills
,
AI
先得读完整套系统的上下文,工程文件、依赖声明和类定义统统加载,单次任务几十万
Token
可能一下就烧完了。去年底同样花
10
块钱能跑完的任务,今年账单上变成了近
20
块。
“真到了需要复杂推理还原问题的时候,真不如自己手写,
AI
的性价比不如大学生,好用还便宜。”今年以来,智谱
API
价格连涨三次,
4
月发布
GLM-5.1
后
Token
价格再度上调
10%
,外版
Coding Plan
月付价格几乎翻倍,算下来,第一季度智谱的
API
定价累计上调约
83%
。
MiniMax
则将之前的
Coding Plan
全面升级为
Token Plan
,新增免费额度减少。
做出同样动作的还有阿里和腾讯,他们都将
Coding Plan
下架换成
Token Plan
。
4
月,阿里云四天内连发三条产品涨价公告,部分项目涨幅最高达
34%
。更早的
3
月,腾讯云部分模型价格涨幅高达
463%
。这意味着,哪怕成为高阶会员,
Token
量大管饱的日子也已经一去不复返了。
智谱
CEO
张鹏上个月在内部会议表示,
“
未来
12
个月最大问题是算力,不是需求。
”
而为了在有限的资源下求生存,
MiniMax
创始人闫俊杰表示,虽然公司同期收入增长了
158.9%
,但公司内部已经不再盲目追求用户量的绝对值,并宣布,截至
2
月,
M2
系列模型的百万
Token
推理成本已较
2025
年
12
月下降了超
50%
。
摩根大通最近将智谱与
MiniMax
同列为“中国
AI
采用周期的结构性受益者”,面对同样的算力挤兑,智谱和
MiniMax
交出了截然不同的答卷。
01
算力成了大模型厂商的生死线
春节以来,开发者社区的投诉帖几乎没有停过。
Kimi
自
2
月起高峰期常现算力不足,智谱更是一连遭遇了多轮危机,
2
月
GLM-5
上线后调用量暴增,
API
排队蔓延,部分开发者的长链代码生成任务直接中断。
智谱不得不公开致歉,承认“规则透明度不够、
GLM-5
灰度节奏太慢、老用户升级机制设计粗糙”,甚至开启全额退款通道。
4
月
12
日,
MiniMax
正式开源
M2.7
模型,首日完成华为昇腾、
摩尔线程
、沐曦等多款国产
GPU
的
Day-0
适配,宣布通过
MoE
架构
优化显著降低了推理成本。但即便如此,用户们吐槽
MiniMax
服务器繁忙、连续掉线、限流的帖子也不在少数。
这种算力短缺的根源在两端的同时失控。需求端,
OpenClaw
等智能体应用将
Token
消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千
Token
,一个典型的
Openclaw
自动化任务,其
Token
消耗量是传统对话场景的
3
至
5
倍,在文件整理、代码生成、多轮工具调用等环节,单次任务的上下文携带量成倍增长。
根据智谱发布的
2025
年度财报,公司全年实现营业收入
7.24
亿元,同比增长
131.9%
。但营收增速背后是更惊人的亏损扩大,年内亏损达到
47.18
亿元,同比扩大
59.5%
,经调整净亏损
31.82
亿元,同比扩大
29.1%
。研发开支高达
31.80
亿元,其中支付给第三方算力供应商的计算服务费用占据大头。
张鹏在一次
AI
开源前沿论坛上说:“所有的技术,包括智能体框架,在很多场景下可以带来十倍级的效率提升,但前提是算力充足。”在
2026
中关村论坛上,他再次强调:“大模型未来
12
个月面临的最大问题可能是算力。”
这种“增收巨亏”的局面并非智谱独有。闫俊杰也不止一次公开表示,用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司“增收不增利”的窘境来源。
供给端则被死死卡住。
2025
年
5
月,美国商务部升级芯片出口限制,英伟达
H20
被纳入禁售名单。虽然后续
H20
有望重返中国市场,但配额大幅缩减。据
SemiAnalysis
数据,
H100
一年期租赁价格从
2025
年
10
月的约
1.70
美元
/
小时
/GPU
涨至
2026
年
3
月的约
2.35
美元
/
小时,涨幅近
40%
。
我们
独家获悉,某头部大厂更是拿出数百亿的预算从年初就开始求卡,但仍然买卡无门。
据中国信通院数据,
2025
年英伟达在中国数据中心市场的份额已从
2022
年的
95%
下滑至
50%
,而国产
AI
芯片份额从
12%
增长至
25%
。华为昇腾以约
81.2
万块的出货量位居国产第一,市场份额约
49.2%
,但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。
这种供给失衡,让
Token
市场出现了
K
型分化。低成本
“
闲聊型
”Token
价格一降再降,阿里通义千问一度压至
0.0005
元
/
千
Tokens
,字节豆包
0.0008
元
/
千
Tokens
。这些面向基础场景的
Token
,成了黄仁勋口中类似
“
水电煤
”
的基础设施。
而另一端的
“
黄金型
”Token——
长链推理、复杂代码生成、企业私有化部署,
价格却一路走高。智谱的
API
定价去年以来已累计提价
83%
,而市场需求非但没有减弱,
API
调用量反而增长了
400%
。算力这把达摩克利斯之剑,落在了所有厂商的脖子上。
02
智谱选保毛利,
MiniMax
选保份额
算力短缺如同一道共同的紧箍咒,但智谱和
MiniMax
选择了两种截然不同的解脱路径。智谱的打算很清楚,涨价,筛选,保利润。
张鹏在
3
月的一次活动中表示,低价竞争不利于行业发展,上调
API
价格是成本变化的结果。而从今年
2
月至
4
月,智谱用连续三次上调
API
价格来回应了这个判断:
Coding Plan
套餐涨
30%
,旗舰
API
服务涨
20%
,
GLM-5
上线后涨
10%
,
GLM-5.1
再涨
10%
。
Anthropic
在海外已经划出了一条清晰的参考线。最近,
Anthropic
调整了企业版
Claude Enterprise
的定价模式,从每月最高
200
美元的固定费用,改为每月
20
美元基础费加按实际算力消耗收费。而在涨价的同时,
Anthropic
年化收入从
2025
年
1
月的约
10
亿美元,一年后,
AnthropicARR
突破
300
亿美元,超过
OpenAI
同期约
250
亿美元的规模。
如今,
Anthropic
估值已突破
1
万亿美元,超过了
OpenAI
(同期约
8800
亿美元)。
智谱选择跟上。通过连续涨价筛选出高付费意愿的客户,将有限的算力集中在
Vibe Coding
(氛围编程)向
Agentic Engineering
(智能体工程)演进的高价值场景。
2026
年一季度,智谱
API
定价累计上调
83%
,同期调用量却暴增
400%
,云端
API
业务毛利率从
3.3%
升至
18.9%
。在刚结束的
2025
年财报电话会上,张鹏将智谱定位为 “中国的
Anthropic
”,并提出:“大模型公司商业价值取决于
Token
消耗的规模,而定价权完全取决于模型的智能上界。”
在张鹏看来,能高效处理长链复杂推理任务的高端
Token
永远是稀缺品,而谁掌握了高端
Token
的定价权,谁就能在下一代竞争中占住入口。这正是智谱在毛利率从
56.3%
降至
41%
的背景下,仍坚持聚焦高价值场景的逻辑所在。
MiniMax
则走了一条完全相反的路线,开源、优化、抢规模。
2025
年
10
月以来,
MiniMax
在不到半年的时间内完成了
M2
、
M2.1
、
M2.5
和
M2.7
四代模型迭代。
2026
年
4
月
12
日,
M2.7
在全球开源。这款
2300
亿参数的
MoE
模型在推理时仅激活
100
亿参数,激活率约
4.3%
,极大降低了推理成本。
为了降本,
MiniMax
与华为昇腾、摩尔线程、沐曦、
昆仑芯
等海内外芯片厂商在开源首日完成了
Day-0
适配。摩尔线程基于
MUSA
架构实现了深度调优,在
MTT S5000
上完成高性能推理部署。沐曦曦云
C
系列
GPU
依托全栈自研的
MXMACA
软件栈实现了“模型发布即算力就绪”。
MiniMax
已经拿到了成果。模型调用量爆发,
M2
系列文本模型单日
Token
消耗量在
2026
年前两个月较
2025
年
12
月激增
6
倍以上,
2
月
ARR
已突破
1.5
亿美元。经调整净亏损约
2.5
亿美元,亏损率显著收窄。
但这也是一场危险的赌注。
MiniMaxAPI
客单价明显低于智谱,单位算力的盈利空间被极度压缩。
MiniMax
打的是“以规模换生态”的算盘,闫俊杰的策略是先让
Token
足够便宜,让开发者习惯它的生态,再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长,这条路就可能被高成本堵死。
而低价策略能否支撑
Minimax
在下一代模型研发上与智谱、阿里等巨头竞争,仍是未知数。
03
破局关键在
“
国产芯片
”
和时间窗口
2025
年度智谱研发开支为
31.8
亿元,算力成本占研发总开支的七成以上,但仍无法满足需求。
GLM-5
单次推理的算力消耗是前代
GLM-4.7
的
3
倍,而国产
GPU
的适配优化尚在推进中。
尽管智谱已完成与华为昇腾、寒武纪等
7
大国产芯片的深度优化,长序列部署成本下降
50%
,整体算力缺口依然巨大。
海外巨头同样承受着巨大算力紧缺的重压。
OpenAI
放弃
Sora
视频生成应用,将算力集中到核心模型开发中。
Anthropic
用锁定
AWS
旗下
Trainium
芯片高达
5
吉瓦的算力资源来换取客户稳定性,不只是传统的风险投资。
算力的“绞索”正在勒紧每一位玩家的脖颈。而在算力的“绞索”被解除之前,智谱和
MiniMax
各自的探索都只是权宜之计,真正的变数是国产芯片的时间窗口。
2025
年,英伟达在中国市场的
AI
加速卡占有率从
2022
年的约
95%
大幅下滑到约
55%
。国产
AI
加速卡总出货量约
165
万张,市占率约
41%
。华为昇腾以约
81.2
万张的出货量断层领跑,占国产份额约
49.2%
。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。
在智谱发布的
GLM-5
中,华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。
更关键的一步可能在
2026
年到来。
2026
年
3
月,华为在合作伙伴大会上正式发布了搭载全新昇腾
950PR
的
AI
训练推理加速卡
Atlas 350
。这款芯片性能据估计可达英伟达
H20
的近三倍,并且对
CUDA
体系的兼容性已大幅提升,字节跳动、阿里巴巴等大厂都计划采用。
这意味着通往国产
GPU
的高质量替代之路已不是纸上谈兵。这次
DeepSeek V4
跳过英伟达
CUDA
生态,适配的是华为昇腾平台,可能动摇英伟达在
AI
算力市场的主导地位,打破其软件生态垄断
。这也正是黄仁勋最近预言的“灾难”。
不过当前DeepSeek自身也卡算力。
V4发布时
官方明确坦言,V4-Pro当前高端算力吞吐有限,自身都受高端芯片供给约束,无法向外大规模输出富余算力。
未来的锚点在于,昇腾
950PR
能否在实际部署中兑现百万级高吞吐与低延迟的承诺,国产芯片是否能在
2026
年实现大规模、稳定的
ToB
商用。假设国产芯片能做到大规模稳定商用,让算力成本骤降,届时低价、规模化的路径无疑将占据上风。
留给国内大模型厂商的问题已然清晰,那就是能否在国产算力芯片全面成熟之前,抢先跑通一条脱离英伟达依赖独立发展的路径。(转载自白鲸实验室)
