谁来为端侧大模型“功耗墙”破局？

发布时间：2026-04-23来源：是说芯语

| 端侧AI元年：千亿赛道的机遇与挑战

2025年被业界公认为“端侧AI元年”，随着AI手机、人形机器人、可穿戴设备等终端产品的爆发式增长，端侧大模型正从技术概念走向规模化应用，催生了对低功耗、高性能端侧AI芯片的海量需求。据测算，全球端侧AI市场将从2025年的3219亿元增长至2029年的1.2万亿元，复合年增长率高达39.6%，千亿赛道已然浮出水面。但繁荣背后，端侧大模型的落地始终被三大核心痛点束缚，成为制约行业发展的“三座大山”，而不同企业选择的技术路径差异，进一步加剧了赛道分化，也为具备创新思维的初创企业留下了破局空间。

第一个核心痛点，是“功耗-算力-成本”的不可能三角。端侧终端多依赖电池供电，对功耗有着严苛要求（通常需控制在5W以内），但大模型复杂度的提升，又对芯片算力提出了极高的需求：要稳定运行7B以上全量级大模型，才能满足高阶智能体验，这就导致多数芯片要么牺牲功耗换取算力（如传统GPU/NPU），要么降低算力控制功耗（如常规端侧ASIC芯片），难以实现三者的平衡。

第二个痛点，是“内存墙”难题突出，多数端侧芯片采用传统平面IO(LPDDR)设计，但计算单元与内存之间的数据搬运能耗高、效率低，带宽利用率普遍不足50%，不仅制约了推理速度，更进一步推高了功耗。尽管MOE结构大模型出现可以每次稀疏激活专家，但是通常端侧30B模型激活的3B专家无法达到智能涌现。因此大模型在端侧的有效应用，还是需要通过三维集成，从而根本解决低功耗、高带宽传输稠密模型参数及KV内存的挑战。

第三个痛点，是场景适配的矛盾，要么追求全场景覆盖导致产品泛化、针对性不足，要么局限于单一终端场景导致市场覆盖面窄，无法适配端侧大模型“多场景融合”的发展趋势，同时开源智能体的崛起也对芯片的场景适配能力提出了新要求。

| 行业困局：两条主流技术路径的分化与局限

痛点的背后，是端侧AI芯片行业两条主流技术路径的分化，这两条路径虽各有侧重，却均未能彻底破解行业困境，也构成了当前赛道的竞争格局。

第一条路径，是国际巨头主导的传统GPU/NPU架构路线。这类路线依托成熟的技术积累，能够提供较强的算力支撑，可稳定运行大模型，但核心短板极为明显：一是功耗居高不下，动辄50W以上的功耗，完全无法适配手机、可穿戴设备等电池供电的终端；二是生态封闭，芯片与软件的适配性较差，灵活调整空间有限，难以适配国内多样化的端侧场景；三是成本高昂，且受限于技术封锁，核心架构与IP依赖海外，无法满足国内市场对供应链安全的需求。即便部分国际巨头推出端侧优化版本，也多是云端芯片的简化版，未能从架构层面解决低功耗与高性能的矛盾，如Arm推出的AGI CPU-1虽单核心功耗控制较好，但整体热设计功耗仍达300瓦，无法适配小型终端场景。

第二条路径，是国内多数同行采用的常规TPU或ASIC架构路线。这类路线精准抓住了端侧终端的低功耗需求，将芯片功耗控制在5W左右，但同样存在难以突破的局限：一是算力不足，多局限于4B以下小模型的运行，无法支撑7B以上全量级大模型，导致智能体验大打折扣；二是“内存墙”难题未得到根本解决，平面IO设计的带宽利用率偏低，能效比难以提升；三是部署模式僵化，多采用固定算力设计，一款芯片仅能适配单一终端场景，研发与部署成本高，难以实现规模化落地；四是核心IP或工艺多依赖海外，国产化程度不足，无法实现真正的自主可控，与国内半导体产业国产替代的发展趋势相悖。

两条主流路径的局限，让端侧大模型芯片赛道陷入了“两难困境”：要么高功耗、高算力、高成本，要么低功耗、低算力、场景窄。

| 破局之道：迈特芯技术、模式、定位的三重创新

在这样的行业背景下，成立仅2年的深圳初创企业迈特芯，并未跟随主流路径，而是通过技术、模式、定位的三重创新，走出了一条差异化破局之路——其核心依托3D分布式TPU技术、类矿机可扩展模式、龙虾终端定位的协同发力，不仅破解了行业痛点，更形成了区别于所有竞争对手的独特优势，成为端侧大模型低功耗芯片赛道的新锐探索者。

作为长期关注端侧算力领域的观察者，迈特芯的价值，不仅在于推出了一款适配端侧场景的芯片，更在于其重构了端侧大模型芯片的发展逻辑，为行业提供了一条可落地、可规模化的创新路径。

要理解这一独特的技术布局，首要需厘清其核心技术——3D分布式TPU与LPU之间的关系，这也是解读其技术优势的关键。

事实上，3D分布式TPU是LPU技术路线的底层核心架构，LPU则是基于这一架构研发的、面向端侧大模型推理的专用芯片及相关产品体系的统称。

| 核心技术：3D分布式TPU与LPU技术路线

从技术角度看，3D分布式TPU技术，跳出了传统架构的局限，从根源上破解了“功耗-算力-内存墙”的三重难题，这也是其与国内外竞争对手最核心的技术差异。不同于国际巨头的传统GPU/NPU架构，也区别于国内同行的常规TPU设计，采用立方脉动架构与3D分布式IO（3D-DRAM近存计算）的深度融合，构建了全新的技术体系，且已通过全国产28nm工艺实现流片，摆脱了海外技术与供应链的依赖。

基于3D分布式TPU架构的LPU技术路线，迈特芯产品落地的核心亮点在于高性能与高能效的双重领先。其LPU芯片技术路线采用全国产工艺及传统制程加3D DRAM堆叠，功耗平均5W，带宽高达600GBps，带宽利用率达到80%，大模型推理速度高达80tps，这种技术创新的核心价值，体现在三个层面。

其一，彻底解决“内存墙”难题，3D分布式IO实现了计算单元与内存的直连，将带宽利用率提升至80%左右，远超国内同行50%以下的平均水平，也打破了国际巨头“高带宽必高功耗”的固有认知——数据无需经过中间环节搬运，不仅提升了推理速度，更大幅降低了数据搬运过程中的能耗，这是架构层面的重构，而非简单的参数优化。

其二，实现能效比的跨越式提升，依托3D分布式TPU 架构，其中5W可稳定运行2-9B模型、性能（近百token）可媲美高端算力芯片，却将功耗降低一个量级，词元能效比（token/W）大大领先其他技术路线。技术优势尤为明显。

其三，国产化落地的领先性，核心架构、IP全自研，基于全国产工艺流片，完全摆脱了海外IP与工艺的依赖，契合国内半导体产业国产替代的发展趋势，这也是国内多数同行尚未实现的突破，更是国际巨头无法适配国内市场的核心短板。同时已完成Qwen、GLM、miniCPM等主流开源大模型的部署，实现了对多模型的广泛适配，打破了部分芯片仅能适配单一模型的局限，进一步强化了其产品的实用性与竞争力，真正实现了性能和能效的国际领先。

从行业角度看：3D分布式TPU技术的最大意义，在于打破了“低功耗与高性能不可兼得”的行业固有认知，为端侧大模型芯片提供了全新的技术路线参考，也为LPU产品的性能领先奠定了坚实基础。

| 迈特芯推理芯片的产品矩阵：

推理芯片	典型适用产品
MC_mega_188(Base系列）, 3D DRAM容量为2.5GB, 满足低功耗要求，典型适用模型为0.5B-3B。	具身智能大小脑盒子
MC_mega_288/MC_mega_488（pro系列），3D DRAM容量为5GB/10GB, 典型适用模型为4B-9B。	龙虾AI学习机
4芯片MC_mega_488 (Pro+系列)推理卡，3D DRAM容量为40GB，采用分布式方案，典型适配模型为27B/35B。	龙虾NAS，龙虾盒子
8 芯片MC_mega_488（Pro Max系列）推理卡，3D DRAM容量为80GB，采用分布式方案，典型适配模型为122B。	工作站、服务器

| 部署模式创新：类矿机可扩展模式

如果说3D分布式TPU是迈特芯的技术根基，那么类矿机可扩展模式，则是其破解端侧算力规模化落地难题的关键创新，也是其在部署模式上区别于竞争对手的核心特色。当前，行业内的部署模式主要分为两种：国际巨头的云端协同模式，端侧芯片仅作为辅助算力，核心算力仍依赖云端，虽能实现算力扩展，但存在隐私泄露、延迟较高的问题，不符合端侧大模型“本地独立运行”的发展趋势；国内同行的固定算力模式，一款芯片仅适配单一场景，部署成本高、灵活性差，难以实现规模化落地。

创新性采用的类矿机可扩展模式，跳出了这两种模式的局限，其核心逻辑是模块化设计，借鉴矿机设备可堆叠、可扩展的特性，让搭载3D分布式TPU技术的LPU系列产品（单芯片、推理卡、类矿机），能够根据实际场景需求，实现多单元协同部署，灵活调整算力规模。这种模式的优势，在于实现了“灵活适配+成本优化”的双重突破：对于平板pad、机器臂等小型终端，可单元部署，满足轻量化算力需求；对于NAS盒子、PC等，可多单元卡分布式集成；对于AI-token工厂可做类矿机提升算力规模。这种可扩展方式无需为不同场景单独研发芯片，大幅降低了研发与部署成本。

更重要的是，这种模式与3D分布式TPU技术形成了深度协同——低功耗的技术特性，让多单元堆叠无需担心功耗超标；可扩展的部署模式，让3D分布式TPU的算力价值得到充分发挥，形成了“技术+模式”的协同优势。类矿机可扩展模式的创新，本质上是对端侧算力部署逻辑的重构，它打破了“一款芯片对应一个场景”的固有模式，让端侧大模型的规模化落地变得更具可行性，这也是区别于所有竞争对手的重要亮点。

| 场景定位：产品与市场的差异化竞争

在技术与模式之外，迈特芯聚焦“龙虾终端”的场景定位，进一步强化了其差异化优势，也精准契合了端侧大模型“智能体本地化”的发展趋势，这与国内外竞争对手的场景布局形成了鲜明对比。当前，国际巨头的场景定位偏向全场景覆盖，试图兼顾消费电子、工业、政务等所有领域，但这种宽泛的定位导致产品针对性不足，无法深度适配某一细分场景的需求，且功耗与成本难以平衡；国内同行则多聚焦于单一场景，如专门适配手机或机器人，虽能实现场景深度适配，但市场覆盖面较窄，难以形成规模化效应，也无法应对端侧大模型“多场景融合”的发展趋势。

“龙虾终端”，核心是适配开源AI智能体“龙虾”（OpenClaw）的本地化运行需求。这款开源智能体可通过本地自主执行复杂任务、支持技能包扩展及IM嵌入式交互，能替人执行终端命令、读写文件、收发邮件、管理日程，无需使用者懂代码或操作系统，其“脚手架”式架构降低了AI使用门槛，推动全民参与AGI生态共建，是拥抱新质生产力的重要工具，也是当前端侧大模型落地的重要载体。核心定位就是为龙虾智能体的本地化运行提供高词元效率的AI端侧芯片，这种精准定位让其能够集中资源，实现技术与场景的深度适配：依托3D分布式TPU技术，为龙虾智能体提供低功耗、高性能的本地算力支撑，解决其本地化运行的算力瓶颈；借助类矿机可扩展模式，适配龙虾智能体在不同终端场景的算力需求，从消费电子到具身智能，实现场景的灵活延伸。

迈特芯端侧超级智能体操作系统架构：MetaClaw

迈特芯的龙虾终端MetaClaw，基于本地大模型（7B-32B）实现token自由，从而支持本地的NAS + IoT + Video等智能应用。作为本地化模型调度中枢，支持Hermes自我学习Skills插件挂载，用户行为记忆沉淀、及本地知识库增量更新，个人数据不出设备，通过Claw做终端网关连接各种终端设备。支持 Markdown、PDF、Word、PPT、音频、视频等多格式导入，及多个智能体场景：家庭政务龙虾、教育健康龙虾、具身龙虾等。

与竞争对手相比，这种定位的优势在于“精准性与扩展性的平衡”：既避免了国际巨头“全场景覆盖”的泛化问题，实现了龙虾智能体在端侧场景的深度适配及真正落地；也解决了国内同行“单一场景聚焦”的局限，通过龙虾智能体（盒子、pad等）场景延伸，覆盖了更多终端类型。

此外，迈特芯与多家上下游企业（麒麟软件、全志科技等）展开生态联合。聚焦龙虾终端的定位，不仅在激烈的赛道中找到了差异化切入点，更抓住了端侧大模型“智能体本地化”的发展趋势，为端侧芯片的场景化布局提供了新的思路，这一点也是多数竞争对手未能实现的。

迈特芯即将推出的三类主打产品，均基于LPU技术路线，针对不同市场需求和应用场景进行精准布局，具有高性能、低功耗、高集成度等特点，能够满足客户的多样化需求，进一步完善了其差异化竞争优势。其一，LPU base系列，采用全国产工艺及传统制程加3D DRAM，聚焦AI pad等消费电子终端，以平均5W的低功耗、大于80Token/s的推理速度，为终端设备提供本地大模型支撑，适配龙虾pad等开源智能体的本地化运行需求；其二，LPU pro系列，聚焦机械臂、工业控制场景，提供轻量化，低成本的本地推理解决方案；其三，LPU pro+ 系列，侧重边缘NAS盒子、PC及token工厂等场景，提供高性能低成本的解决方案。三类产品形成互补，覆盖消费电子、工业、边缘计算等多领域，构建了完整的产品矩阵，也让其市场覆盖更具针对性与竞争力。

| 竞争格局与迈特芯差异化优势

当前，端侧AI芯片赛道竞争日趋激烈，不仅面临着英伟达、高通等具有全球影响力的国际巨头的直接竞争，同时也需应对国内同行的同质化竞争压力。从竞争格局来看，英伟达、高通凭借成熟的技术积累、完善的生态布局和强大的品牌影响力，在高端端侧芯片市场占据主导地位——英伟达的端侧GPU虽算力强劲，但功耗居高不下，难以适配电池供电的小型终端；高通的骁龙AI芯片聚焦手机场景，但其核心架构仍依赖传统设计，带宽利用率与能效比不及LPU路线。而国内同行多采用常规2D IO或传统NoC路线，其架构利用率低、功耗高、难扩展、智能体适配性差，或采用3D IO架构的无法解决大算力3D堆叠带来的散热问题，因此难以形成核心竞争力。

作为对比，迈特芯的LPU路线依托3D分布式TPU架构，实现了带宽利用率、能效比、推理速度的三重领先，核心参数均达到国际先进水平，且基于全国产工艺，摆脱了海外IP与供应链的依赖，契合国内半导体产业国产替代的发展趋势；在产品上，三类主打产品定位精准，覆盖多场景需求，且实现了多主流模型的适配，实用性更强；在市场上，已与众多终端龙头客户建立合作关系，为其提供端侧AI算力解决方案，积累了宝贵的客户资源和市场口碑，进一步强化了其市场竞争力。

从行业角度看，迈特芯的竞争优势，并非单一维度的技术或产品优势，而是“技术-模式-定位”三者形成的协同壁垒——3D分布式TPU技术解决了“低功耗+高性能+内存墙”的核心痛点，类矿机可扩展模式解决了规模化落地的难题，龙虾终端定位实现了场景的精准适配，再加上2026年初全国产工艺流片的落地优势，让其在赛道中形成了独特的竞争优势。这种协同壁垒，既区别于国际巨头“高功耗、封闭生态、泛场景”的模式，也不同于国内同行“单技术、固定模式、单一场景”的局限，更跳出了行业“两难困境”，为端侧大模型芯片的发展提供了全新的可能。

| 公司背景及使命

作为一家成立仅2年的初创企业，突围并非偶然，其背后是顶尖团队的支撑——由南科大余浩教授（国家级领军人才、两获吴文俊人工智能奖、3DIC国际最佳论文）领衔，核心团队汇聚大厂芯片及系统专家，覆盖芯片全产业链，形成了“顶尖学术引领+资深产业落地”的黄金组合。团队稳扎稳打，2023年ASIC投片验证TPU，2024年FPGA原型机验证分布式IO大模型，2025年全国产3D工艺设计，2026年流片量产3D分布式TPU芯片及推理卡。

未来，迈特芯计划2026年底实现样片量产，2027年大规模落地，持续迭代14nm/7nm工艺，从而降低功耗提升词元能效比，进一步强化三大核心优势，构建端侧大模型芯片生态。

端侧大模型的规模化落地，迫切需要跳出传统技术路径的局限，而迈特芯的探索，不仅为自身赢得了发展机遇，更为整个行业提供了宝贵的借鉴。在国产替代加速与端侧AI爆发的双重浪潮下，只有聚焦行业痛点、坚持技术创新、找准场景定位，才能在激烈的赛道竞争中脱颖而出。迈特芯作为“端侧大模型低功耗芯片先行者”，其差异化的发展路径（3D分布式TPU架构），将推动端侧智能从“概念”走向“现实”，让AI新硬件终端真正拥有独立的“智能大脑”，为AI-token经济提供了国产化路径的方案，也为我国半导体产业破解“卡脖子”难题、实现自主可控注入新的活力。迈特芯，让端侧智能体无处不在，让龙虾都有自己的家。

声明：本文仅为信息交流之用，不构成任何投资建议，股市有风险，投资需谨慎。

参与“2025-2026年度第九届中国IC独角兽评选”，请点击进入↓↓

是说芯语原创，欢迎关注分享

合作洽谈，进入公众号：服务—>商务合作

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。