深度｜字节押注自研推理芯片，AI成本战进入基础设施层

发布时间：2026-05-30来源：Z Finance

字节跳动正在把 AI 基础设施的投入推向更深处。

据 The Information 报道，字节跳动正在开发一款新的 AI 推理芯片，设计思路接近美国芯片公司 Groq 的语言处理单元（LPU）。这类芯片不是为了训练最大模型，而是为了以更低成本运行已经训练好的模型。对拥有豆包、AI 编程工具、视频生成模型和推荐系统的字节跳动来说，推理已经成为更高频、也更持续的算力消耗。

字节跳动还在与上海存储芯片创业公司昕原半导体合作，研究如何把后者的 RRAM 存储技术集成进这款芯片。知情人士称，新芯片设计可能不使用 HBM。HBM 是当前先进 AI 加速器的关键部件，也受到美国出口管制严格限制。

这不是一次孤立的芯片尝试。过去一年，字节跳动一边继续通过海外数据中心和第三方供应商获得先进 GPU，一边提高 AI 基础设施预算，并寻找英伟达之外的芯片来源。它要解决的不是“有没有算力”，而是在 AI 应用调用量持续上升、外部供应不确定的情况下，如何获得更稳定、更便宜、也更可控的推理能力。

这一变化发生在字节跳动大幅提高 AI 基础设施预算之后。

去年底，英国《金融时报》报道称，字节跳动曾初步计划在 2026 年投入 1600 亿元人民币建设 AI 基础设施。今年 5 月，南华早报报道称，字节跳动已将今年 AI 基础设施支出计划上调 25% 至 2000 亿元人民币。随后，彭博社报道称，字节跳动正在讨论今年最高 700 亿美元的资本开支，用于数据中心和其他 AI 基础设施建设，资金很大一部分将来自其 2025 年约 500 亿美元的利润。

这些数字的口径并不完全一致，但指向同一个事实：AI 基础设施正在成为字节跳动最重要的资本开支项目之一。

过去，字节跳动的 AI 投入更多被外界理解为模型和应用投入。豆包是中国使用最广的 AI 聊天机器人之一，字节也在视频生成、AI 编程、搜索和推荐等方向持续投入。

但随着产品调用量增加，算力问题变得更接近业务问题：模型越多、场景越多、用户越活跃，推理成本就越难被单纯视为研发费用。

训练通常是阶段性投入，推理则跟随用户规模、调用频率和响应长度持续发生。AI 应用真正进入日常使用后，推理成本会变成一家公司能否长期扩大 AI 服务的底层约束。

HBM 之外的路线

字节跳动转向推理芯片，是在寻找一种不同于通用 GPU 的算力组织方式。

Groq 的 LPU 代表了一种思路：把模型运行所需的数据尽量放在芯片内部的高速存储中，以减少数据搬运，提升响应速度，降低功耗。对高频调用的 AI 服务而言，这种效率改善比单次峰值算力更重要。

据报道，今年早些时候，英伟达达成一项 200 亿美元交易，获得 Groq 技术授权后，字节跳动加快了相关研发。英伟达的动作说明，推理芯片不再只是小公司的差异化路线，也开始被主流 AI 芯片供应商纳入下一阶段竞争。

字节跳动并不是唯一沿着这个方向投入的公司。美国大型科技公司也在开发面向不同推理场景的 AI 加速器，以降低对通用 GPU 的依赖。The Information 上月报道称，Google 正在与美国芯片公司 Marvell 洽谈开发新的推理芯片，其设计也与 Groq 的 LPU 类似。

但对中国公司来说，专用推理芯片还有另一层含义：绕开受限供应链的一部分。

当前先进 AI 加速器通常依赖 HBM。HBM 位于加速器芯片旁边，提供高带宽数据访问，是英伟达、Google 等 AI 芯片的重要组成部分。美国对中国出口先进 AI 芯片的限制，已经延伸到 HBM 等关键部件。

Groq 的 LPU 使用大量片上 SRAM 存储模型相关数据。SRAM 的读取速度快于 HBM，但成本、面积和容量都有不同约束。字节跳动正在开发的新芯片如果不使用 HBM，意味着它有机会减少对受控供应链的依赖，但也需要在芯片面积、制造成本、模型适配和软件生态上重新权衡。

昕原半导体因此进入字节跳动的芯片计划。昕原成立于 2019 年，总部位于上海，专注于 RRAM，即阻变式随机存取存储器。RRAM 通过存储单元内部电阻变化保存数据，被视为一种新型存储技术。昕原在中国设计芯片，但通过台积电成熟制程产线制造。这些成熟制程目前不在美国出口管制限制范围内。

字节跳动曾在 2024 年投资昕原。据一名了解融资情况的人士和另一名直接知情人士称，昕原目前正在进行约 4 亿美元融资，投资方包括字节跳动和云锋基金。云锋基金由阿里巴巴创始人马云参与创立。本轮融资前，昕原估值约为 15 亿美元。

不过，RRAM 距离大规模用于 AI 计算仍有距离。多名了解合作的人士称，昕原正从研究原型转向商业化生产。新型存储技术能否稳定量产、是否适合大模型推理负载、如何与字节跳动的软件和模型体系协同，仍需要时间验证。

短期离不开英伟达，长期重组算力供应

芯片自研对字节跳动不是新命题。早在 2022 年，字节就开始招聘半导体工程师。

据 The Information 报道，除这款类似 Groq 的推理芯片外，字节跳动目前还在开发另一款代号为 Ada-S 的新 AI 处理器。另有两名字节员工称，公司还在开发一款用于视频算法的独立芯片，可用于短视频应用中的滤镜等功能。

这说明字节跳动并不只是在为一个单点项目寻找芯片，而是在根据不同业务负载拆分硬件需求：训练和通用推理仍依赖先进 GPU；高频推理可能尝试专用架构；视频算法则对应更垂直的处理芯片。

短期内，字节跳动仍无法离开英伟达。

据《华尔街日报》此前报道，字节跳动正通过马来西亚云服务商 Aolani Cloud 获取一组英伟达 Blackwell 集群，规模约 500 套 GB200 NVL72 系统，合计约 3.6 万颗 B200 GPU，价值约 25 亿美元。由于先进芯片对中国出口受限，境外算力部署成为中国 AI 公司补充高端训练能力的一种方式。

与此同时，字节跳动也在寻找其他供应商。彭博社本周报道称，高通已与字节跳动达成协议，将为后者 AI 数据中心供应芯片。这类交易显示，字节跳动正在为 AI 基础设施搭建多供应商体系，而不是把未来押在单一来源上。

这套体系的成本很高。数据中心建设、海外 GPU 集群、第三方芯片采购、自研 ASIC、新型存储合作，每一项都需要资本、工程团队和长期调试。对字节跳动这样的公司来说，投入 AI 基础设施的动机不只是防御供应风险，也来自业务侧的压力。

豆包需要低成本服务海量用户；视频生成模型需要持续消耗算力；推荐系统和广告系统需要更强的模型能力；TikTok、抖音、电商、本地生活和企业服务，都在寻找 AI 可以嵌入的环节。AI 如果只是少数实验产品，外部算力采购就足够支撑；如果要变成所有业务的底层能力，算力就必须被重新组织。

这也是大公司自研芯片的共同逻辑。

Google 有 TPU，亚马逊有 Trainium 和 Inferentia，Meta、微软也在推进自研 AI 芯片。它们并不是为了完全取代英伟达，而是为了在确定性负载上降低成本，并把硬件、模型和业务场景绑定得更紧。

字节跳动面临的约束更复杂。美国出口管制限制了它获得先进 GPU 和 HBM 的渠道；中国本土 AI 芯片生态仍在成熟；自研芯片需要时间；新型存储还没有被大规模验证。它能做的，是同时推进多条路径，让不同类型的算力在不同阶段承担不同任务。

因此，字节跳动的芯片计划更像是一次中长期资源重配，而不是短期替代。它不会很快减少对英伟达 GPU 的依赖，也无法立刻解决全部推理成本问题。但它反映出一个变化：AI 竞争正在从模型参数、应用下载量，进入基础设施效率的竞争。

接下来需要观察的信号包括：这款推理芯片能否进入流片和量产阶段；昕原的 RRAM 能否稳定商业化；Ada-S 和视频算法芯片是否会进入字节内部业务；以及字节跳动在海外数据中心、第三方 AI 芯片和自研芯片之间，最终如何分配资本开支。

字节跳动过去擅长用产品和流量把新技术推向大规模使用。AI 时代，它还需要证明自己能以可承受的成本运行这些技术。算力不再只是后台资源，而是在决定 AI 应用能走多远。

加入ZF讨论群，请先添加小助手微信

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的实习生

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。