深度|字节押注自研推理芯片,AI成本战进入基础设施层

字节跳动正在把 AI 基础设施的投入推向更深处。
据 The Information 报道,字节跳动正在开发一款新的 AI 推理芯片,设计思路接近美国芯片公司 Groq 的语言处理单元(LPU)。这类芯片不是为了训练最大模型,而是为了以更低成本运行已经训练好的模型。对拥有豆包、AI 编程工具、视频生成模型和推荐系统的字节跳动来说,推理已经成为更高频、也更持续的算力消耗。
字节跳动还在与上海存储芯片创业公司昕原半导体合作,研究如何把后者的 RRAM 存储技术集成进这款芯片。知情人士称,新芯片设计可能不使用 HBM。HBM 是当前先进 AI 加速器的关键部件,也受到美国出口管制严格限制。
这不是一次孤立的芯片尝试。过去一年,字节跳动一边继续通过海外数据中心和第三方供应商获得先进 GPU,一边提高 AI 基础设施预算,并寻找英伟达之外的芯片来源。它要解决的不是“有没有算力”,而是在 AI 应用调用量持续上升、外部供应不确定的情况下,如何获得更稳定、更便宜、也更可控的推理能力。
这一变化发生在字节跳动大幅提高 AI 基础设施预算之后。
去年底,英国《金融时报》报道称,字节跳动曾初步计划在 2026 年投入 1600 亿元人民币建设 AI 基础设施。今年 5 月,南华早报报道称,字节跳动已将今年 AI 基础设施支出计划上调 25% 至 2000 亿元人民币。随后,彭博社报道称,字节跳动正在讨论今年最高 700 亿美元的资本开支,用于数据中心和其他 AI 基础设施建设,资金很大一部分将来自其 2025 年约 500 亿美元的利润。
这些数字的口径并不完全一致,但指向同一个事实:AI 基础设施正在成为字节跳动最重要的资本开支项目之一。
过去,字节跳动的 AI 投入更多被外界理解为模型和应用投入。豆包是中国使用最广的 AI 聊天机器人之一,字节也在视频生成、AI 编程、搜索和推荐等方向持续投入。
但随着产品调用量增加,算力问题变得更接近业务问题:模型越多、场景越多、用户越活跃,推理成本就越难被单纯视为研发费用。
训练通常是阶段性投入,推理则跟随用户规模、调用频率和响应长度持续发生。AI 应用真正进入日常使用后,推理成本会变成一家公司能否长期扩大 AI 服务的底层约束。
HBM 之外的路线
字节跳动转向推理芯片,是在寻找一种不同于通用 GPU 的算力组织方式。
Groq 的 LPU 代表了一种思路:把模型运行所需的数据尽量放在芯片内部的高速存储中,以减少数据搬运,提升响应速度,降低功耗。对高频调用的 AI 服务而言,这种效率改善比单次峰值算力更重要。
据报道,今年早些时候,英伟达达成一项 200 亿美元交易,获得 Groq 技术授权后,字节跳动加快了相关研发。英伟达的动作说明,推理芯片不再只是小公司的差异化路线,也开始被主流 AI 芯片供应商纳入下一阶段竞争。
字节跳动并不是唯一沿着这个方向投入的公司。美国大型科技公司也在开发面向不同推理场景的 AI 加速器,以降低对通用 GPU 的依赖。The Information 上月报道称,Google 正在与美国芯片公司 Marvell 洽谈开发新的推理芯片,其设计也与 Groq 的 LPU 类似。
但对中国公司来说,专用推理芯片还有另一层含义:绕开受限供应链的一部分。
当前先进 AI 加速器通常依赖 HBM。HBM 位于加速器芯片旁边,提供高带宽数据访问,是英伟达、Google 等 AI 芯片的重要组成部分。美国对中国出口先进 AI 芯片的限制,已经延伸到 HBM 等关键部件。
Groq 的 LPU 使用大量片上 SRAM 存储模型相关数据。SRAM 的读取速度快于 HBM,但成本、面积和容量都有不同约束。字节跳动正在开发的新芯片如果不使用 HBM,意味着它有机会减少对受控供应链的依赖,但也需要在芯片面积、制造成本、模型适配和软件生态上重新权衡。
昕原半导体因此进入字节跳动的芯片计划。昕原成立于 2019 年,总部位于上海,专注于 RRAM,即阻变式随机存取存储器。RRAM 通过存储单元内部电阻变化保存数据,被视为一种新型存储技术。昕原在中国设计芯片,但通过台积电成熟制程产线制造。这些成熟制程目前不在美国出口管制限制范围内。
字节跳动曾在 2024 年投资昕原。据一名了解融资情况的人士和另一名直接知情人士称,昕原目前正在进行约 4 亿美元融资,投资方包括字节跳动和云锋基金。云锋基金由阿里巴巴创始人马云参与创立。本轮融资前,昕原估值约为 15 亿美元。
不过,RRAM 距离大规模用于 AI 计算仍有距离。多名了解合作的人士称,昕原正从研究原型转向商业化生产。新型存储技术能否稳定量产、是否适合大模型推理负载、如何与字节跳动的软件和模型体系协同,仍需要时间验证。
短期离不开英伟达,长期重组算力供应
芯片自研对字节跳动不是新命题。早在 2022 年,字节就开始招聘半导体工程师。
据 The Information 报道,除这款类似 Groq 的推理芯片外,字节跳动目前还在开发另一款代号为 Ada-S 的新 AI 处理器。另有两名字节员工称,公司还在开发一款用于视频算法的独立芯片,可用于短视频应用中的滤镜等功能。
这说明字节跳动并不只是在为一个单点项目寻找芯片,而是在根据不同业务负载拆分硬件需求:训练和通用推理仍依赖先进 GPU;高频推理可能尝试专用架构;视频算法则对应更垂直的处理芯片。
短期内,字节跳动仍无法离开英伟达。
据《华尔街日报》此前报道,字节跳动正通过马来西亚云服务商 Aolani Cloud 获取一组英伟达 Blackwell 集群,规模约 500 套 GB200 NVL72 系统,合计约 3.6 万颗 B200 GPU,价值约 25 亿美元。由于先进芯片对中国出口受限,境外算力部署成为中国 AI 公司补充高端训练能力的一种方式。
与此同时,字节跳动也在寻找其他供应商。彭博社本周报道称,高通已与字节跳动达成协议,将为后者 AI 数据中心供应芯片。这类交易显示,字节跳动正在为 AI 基础设施搭建多供应商体系,而不是把未来押在单一来源上。
这套体系的成本很高。数据中心建设、海外 GPU 集群、第三方芯片采购、自研 ASIC、新型存储合作,每一项都需要资本、工程团队和长期调试。对字节跳动这样的公司来说,投入 AI 基础设施的动机不只是防御供应风险,也来自业务侧的压力。
豆包需要低成本服务海量用户;视频生成模型需要持续消耗算力;推荐系统和广告系统需要更强的模型能力;TikTok、抖音、电商、本地生活和企业服务,都在寻找 AI 可以嵌入的环节。AI 如果只是少数实验产品,外部算力采购就足够支撑;如果要变成所有业务的底层能力,算力就必须被重新组织。
这也是大公司自研芯片的共同逻辑。
Google 有 TPU,亚马逊有 Trainium 和 Inferentia,Meta、微软也在推进自研 AI 芯片。它们并不是为了完全取代英伟达,而是为了在确定性负载上降低成本,并把硬件、模型和业务场景绑定得更紧。
字节跳动面临的约束更复杂。美国出口管制限制了它获得先进 GPU 和 HBM 的渠道;中国本土 AI 芯片生态仍在成熟;自研芯片需要时间;新型存储还没有被大规模验证。它能做的,是同时推进多条路径,让不同类型的算力在不同阶段承担不同任务。
因此,字节跳动的芯片计划更像是一次中长期资源重配,而不是短期替代。它不会很快减少对英伟达 GPU 的依赖,也无法立刻解决全部推理成本问题。但它反映出一个变化:AI 竞争正在从模型参数、应用下载量,进入基础设施效率的竞争。
接下来需要观察的信号包括:这款推理芯片能否进入流片和量产阶段;昕原的 RRAM 能否稳定商业化;Ada-S 和视频算法芯片是否会进入字节内部业务;以及字节跳动在海外数据中心、第三方 AI 芯片和自研芯片之间,最终如何分配资本开支。
字节跳动过去擅长用产品和流量把新技术推向大规模使用。AI 时代,它还需要证明自己能以可承受的成本运行这些技术。算力不再只是后台资源,而是在决定 AI 应用能走多远。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。


