破解GPU功耗墙:“空间光计算”将成AI算力新出路?
当电子芯片逼近摩尔定律的物理极限,人工智能(AI)算力需求的指数级增长,正使传统计算架构面临“功耗墙”与“内存墙”的双重瓶颈。光子——这个曾被限制在通信领域的信使,如今正以计算“主角”的身份登上舞台中央。
继国内首家光电混合计算芯片厂商曦智科技成功登陆港交所之后,全球光电混合计算领域又迎来了一位重磅玩家——每刻深思(MakeSens)。
每刻深思与曦智科技虽同聚焦于光计算领域,但技术路线截然不同。曦智科技走的是集成光子计算路线,而每刻深思选择的是3D空间光学计算路线,也是目前国内唯一基于该技术路线的厂商,直接对标比尔·盖茨与微软投资的空间光学计算芯片厂商Neurophos。
近日,每刻深思核心团队——创始人兼CEO邹天琦、首席科学家乔飞、首席技术官刘哲宇接受了芯智讯专访,首次对外介绍了公司在空间光学计算领域的布局,以及即将推出的基于该技术的大算力、高能效的全模拟光电计算芯片。
AI时代,电芯片正面临巨大挑战
过去半个多世纪,电子芯片计算能力的提升主要依赖三条路径:制程微缩、架构创新和封装集成。但如今,这三条路几乎同时逼近极限。
首先,晶体管的尺寸已经越来越接近物理极限,继续缩小不仅所能带来的性能提升或功耗降低收益越来少,而且漏电、发热等问题愈发严重,成本更是急剧攀升。根据供应链消息显示,芯片设计厂商打造2nm芯片,从开案到产出的总成本将高达7.25亿美元,而台积电2nm晶圆代工价格也将高达3万美元,接下来的埃米级制程(比如A16制程)代工价格或将高达4.5万美元。
其次,当前电子芯片的都还是基于冯·诺依曼架构,计算单元和存储单元是分开的,数据需要在两者之间来回搬运。特别是对于AI计算来说,超过80%的能耗和时间都浪费在了数据搬运过程中,这也正是“内存墙”的由来。
第三,电子芯片的性能提升,本质上还是依赖于输入的电力功率的提升。随着AI对于算力需求的飙升,以英伟达GPU为代表的电子芯片功率也在快速提升(比如H200功率为700W,Vera Robin的功率就已经高达2300W),带动整个AI系统对于电力的需求暴涨。据预测,到2028年仅美国数据中心的电力消耗就可能占全国总电力的12%,是目前的3倍。
而且,电子只要在导体中运动就会产生电阻,而越高的功率就意味着会带来越多的热量,如果散热问题解决的不好,芯片乃至整个系统就将无法正常工作,这就是“功耗墙”。
原本电子芯片是依赖于晶体管微缩技术来实现性能的提升和功耗的降低,但是随着晶体管微缩逼近物理极限,功耗墙问题将愈发凸显。这也是为什么很多基于英伟达GPU的AI系统已经开始采用了液冷系统来进行散热。而增加散热系统又会带来额外的电力能源需求。
显然,在AI算力需求持续增长之下,传统电芯片这种依赖于电力功率持续提升来提升性能所导致的功耗曲线是不可持续的。这种供需之间的巨大落差,也正是光子计算被推到舞台中央的根本原因。
光子计算的破局:三大天然优势
光子计算就是利用光子替代电子,用于某些计算任务,尤其是适合于矩阵乘法计算,而这正是AI工作负载的核心工作。
光与电子遵循完全不同的物理规律。电子带电,相互之间会产生干扰,在导体中运动会遇到阻力、产生热量;而光子不带电、无质量,以光速传播,彼此之间几乎不发生相互作用,传播过程中也不会产生热量。这些基本物理特性,赋予了光子计算三个电子无法比拟的优势:
第一,天然的高速并行能力。光本身就具有波长、相位、振幅、偏振等多个物理维度,这意味着单束光可以同时携带多路信息。
第二,极低的能耗。 由于光子传播过程中几乎不产生热量,光计算系统的能耗主要来自光电转换环节,而非计算本身。
第三,超低的延迟。 光在芯片中的传播速度是纳秒级的,而当矩阵向量乘法在光场中完成时,整个运算可以在一个物理周期内结束,无需像数字脉动阵列那样需要数百个周期。
基于光子计算这三个独特的优势,这让低成本、低功耗、高带宽的AI计算成为可能。
光子计算是一种被动运算,运算任务在光通过光子矩阵的过程中即可完成,它颠覆了传统CMOS电子芯片的运算逻辑。光子芯片的性能提升与光子矩阵规模、主频速率和波长数量等参数相关,而不依赖晶体管的密度及芯片制程的提升,并且拥有高通量、低延时、低功耗等特点,因此用光计算来代替部分当前的电计算就成为了突破现有瓶颈的有效途径。
每刻深思创始人兼CEO邹天琦指出:“特别是在美国对中国进行半导体技术封锁,国内先进制程发展受限的背景之下,依托于国内在光通信等领域的技术领先优势和供应链优势,光计算正成为中国厂商打破美国对华AI算力封锁的全新路径。这也是每刻深思近年来持续深光计算领域一大关键原因。”
技术路线分野:集成光学 vs 空间光学
目前光子计算这个领域已经分化出两条截然不同的技术路线:集成光子计算和空间光学计算。
集成光子计算是将光束限制在二维平面的波导内(蚀刻在硅或其他材料上的狭窄通道),并将调制器、探测器、波导等光子器件集成在硅基芯片上,实现了类似传统集成电路的紧凑、芯片级设计。这种方法与现有半导体制造业实现了良好的集成。前面提到的曦智科技走的就是集成光子计算路线。
但是,集成光子计算过程中也会面临固有限制:光在波导中传播时,光学损耗会累积,密集元件间的热串扰降低性能,并且其芯片布局的二维特性也限制了可实现的并行程度。

空间光学计算则是利用了光可以在三维空间中传播的特性,在三个空间维度上对光同时进行分束、调制和重组,一次传输就能完成在电子系统或集成光子系统中需要数千个顺序步骤才能完成的矩阵运算,而且几乎零能耗。如果同时利用数百万条光束进行并行计算,随着系统规模扩大,计算速度呈二次方增长。
正是空间光学计算这种“同时进行”的能力,让光计算在处理大规模并行任务时拥有先天优势,并且还消除了集成光子学的损耗和串扰问题。每刻深思则选择的正是空间光学计算路线。

△Lumai公司的空间光学计算方案
但是,传统空间光学计算系统,比如总部位于英国牛津的Lumai公司的方案,主要依赖体积庞大的光学元件——透镜、分束器、空间光调制器等,这些元件的尺寸通常在毫米到厘米级别,导致整个系统难以小型化。
为了解决传统空间光学计算系统所面临的小型化难题,作为国内空间光学技术领域的开拓者,每刻深思则利用超表面技术将庞大的光学透镜集成到几十纳米厚的薄膜上,并完全兼容现有的CMOS半导体晶圆制造工艺,再结合MicroLED光源,使得整个空间光学计算系统的向芯片化、薄膜化方向演进。

△每刻深思的空间光学计算方案示意图
“空间光学计算正在前沿爆发期,即将迎来从‘实验室光学平台’走向‘片上协处理器’的商业化跨越。特别是依托于中国成熟的光器件产业链,空间光学计算也将成为最具备产品化、商业化能力的光计算技术路径。”每刻深思创始人兼CEO邹天琦说道。
光电融合:商业化落地的必然选择
虽然空间光学计算前景广阔,但是这并不意味着其能够完全替代电子计算,其依然需要电子计算部分来组成一个计算系统。
首先,精度是光子计算的一个软肋。 电子计算是数字的、确定的——一个晶体管要么开要么关,计算结果是精确的。而光计算本质上是模拟的,光强、相位等物理量的连续变化会受到噪声、温度波动、元件错位等因素的干扰。因此,在需要高精度数值计算的任务(如金融建模、科学仿真)中,光子计算短期内无法替代电子计算。
其次,逻辑控制也不是光的强项。 光子的相互作用很弱——这在传输中是优势,但在需要复杂逻辑判断时就成了劣势。电子可以通过晶体管实现“与或非”等逻辑门,从而构建任意复杂的控制流;而光子很难实现类似的可编程逻辑控制。这也是为什么所有光计算方案都采用“光电混合”架构——光负责大规模并行矩阵运算,电负责控制、逻辑和存储。
在光电融合计算架构的前提下,每刻深思并没有采用集成光子计算那样的光学+数字电路的架构,而是采用了空间光学计算+模拟电路的融合架构,其核心优势在于消除了数据转换的瓶颈,带来了系统延迟、能效和计算瓶颈三个维度上的巨大的提升。
邹天琦指出,光计算本质上就是模拟计算,其利用光的衍射和干涉特性,在物理层面完成矩阵乘法等核心运算,实现了存算一体化,计算在数据传输的同时就已发生,从根本上绕开了“内存墙”。而“光学+模拟”方案通过存算一体和全模拟处理,使得整个计算过程无需将模拟信号转换为数字信号,同时避免了频繁的数据转换与存储访问,可以实现极低的延迟和极高的能效。
相比之下,“光学+数字”方案需要频繁使用高功耗、高延迟的模数转换器(ADC) 进行信号转换,每次转换都会引入额外延迟,并成为系统速度提升的瓶颈。同时,“光学+数字”方案需要数据在光、电、数字之间反复转换,面临来自高速ADC、高带宽内存访问(即“内存墙”问题)和数字逻辑运算带来的功耗显著增加的问题。
据每刻深思首席科学家乔飞介绍,基于空间光学计算+模拟电路的融合架构,每刻深思即将推出的全模拟光电智能计算芯片(ACCEL)突破了传统数字芯片的算力瓶颈,性能相比先进的GPU提升了3-4个数量级;延迟方面也降低了2个数量级至纳秒级;带宽也有10倍的提升;能效比更是提升了4个数量级。
具体来说,与集成光学计算芯片相比,每刻深思的ACCEL由于采用的是空间光计算,是过微纳结构进行计算,集成度高,可做多层计算,计算规模也远大于一维的集成光子计算,目前最高可以做到“400×400×2矩阵”(远高于集成光学计算方案的曦智科技的PACE2的“128×128矩阵”),光学计算性能最高可达4550TOPS(FP8),超过了英伟达H200;光学计算能效比最高可达7.45×10⁴ TOPS/W,相比H200提升了4个数量级,这几项项指标均居于全球领先地位。

“我们采取的差异化的竞争策略,首款ACCEL芯片在保证足够高的性能前提下,侧重点还是聚焦于高能效。虽然当前AI算力需求正在爆发式增长,但对于云厂商而言,如何提高投入产出比则更具实际效应。”乔飞坦言,作为光计算领域的新入局者,每刻深思选择“高能效”这一差异化标签,既能避开与英伟达在峰值算力上的正面竞争,又能精准切入对功耗敏感的大规模推理场景——这正是当前AI部署中最迫切需要解决的问题,也是客户愿意尝试新方案的突破口。
更为关键的是,每刻深思的ACCEL由于是全模拟光电计算架构,其模拟电路并不依赖于高端制程,采用的是成熟的22nm制程工艺,可直接在国内制造。光学器件和结构工艺也比较成熟,供应链可复用国内国内成熟且具优势的光通信和显示行业的资源。所以,ACCEL具备大规模量产的条件,不仅可以将成本降至英伟达H200的1/10,而且供应链也可以做到完全的国产化。
值得一提的是,每刻深思的ACCEL还拿到了国家重点研发计划颠覆性项目,获得了国家科技重大专项的支持。
技术溯源:清华大学十余年积累
那么,作为一家成立于2020年初创企业,为什么每刻深思能够能如此迅速地在光计算领域脱颖而出呢?
据每刻深思创始人兼CEO邹天琦介绍,每刻深思的ACCEL技术来源于清华大学自动化系戴琼海院士的研究团队于2023年发表于《自然》杂志的关于全新光电模拟计算芯片的研究成果转化。这项研究,提供光模拟计算和模拟电计算深度融合的可行性方案。每刻深思的首席科学家乔飞也正是该研究团队的核心成员,主导了其中光电接口和模拟电计算。
2024年,每刻深思又与清华大学电子系黄翊东教授团队冯雪副教授合作,在超表面光场调控的研究取得新进展,打通光电环路,解决了未来在系统中部署大规模算法和大模型的能力问题,为工程化应用奠定基础。
“我们的核心研发团队都是来自清华大学电子系,并且从2012年开始就在进行模拟计算方向的研发,当时名为清华大学电子系智能感知集成电路与系统实验室(Sense Lab),也是全球最早开始研发模拟计算方向的团队之一。每刻深思的核心技术也正是源自于乔飞教授20余年的研究成果。”邹天琦说道。
由于模拟电路不同于数字芯片,其无法通过仿真和FPGA验证来实现,只能通过不断的流片和测试进行迭代,最终达到预期的效果,所以非常吃经验。邹天琦透露,每刻深思的核心研发团队都拥有着极为丰富的模拟计算芯片的研发与工程化量产经验。
这也是为什么每刻深思在2020年成立之后,就持续聚焦于模拟计算芯片的设计与开发,并很快就推出了MKS系列“模拟感存算一体”智能芯片,利用模拟计算的高能效大幅降低了持续感知计算下的高功耗难题。
得益于每刻深思研发团队丰富的模拟计算芯片研发和量产经验,以及与清华大学在光电模拟计算芯片方面的深度合作,才有了每刻深思即将推出的这款大算力的ACCEL芯片的产品化。
根据规划,每刻深思将于今年三季度正式发布大算力ACCEL产品,这也将是国内首个全模拟光电智能计算芯片,目标是能够满足千亿级参数的大模型推理需求。
规模化量产与商业化挑战
虽然每刻深思的ACCEL有着很多的优势,但是要走向规模化和商业化,也面临着精度、灵活性、规模化、软件生态等诸多方面的挑战。
每刻深思首席技术官刘哲宇告诉芯智讯,目前ACCEL的计算精度虽然只能做到8bit左右,但是已经足以满足大多数的大模型推理需求。如果要进一步提高精度,则需要通过软硬件的升级,工艺的迭代来逐步实现。
在灵活性方面,ACCEL方案采用的是专用化路线,一旦系统固定,难以重新配置执行不同任务,所以缺乏灵活性。虽然主动或混合集成方案可提升可重构性,但这往往以牺牲能效为代价。
在大规模芯片集成方面,光学计算系统还将面临光路对准与稳定性、器件一致性等影响计算精度和封装良率的问题。因为,其核心器件Micro LED、超表面、电芯片的对准封装难度较大,所以成本也相对比较高。
“依托于现有的供应链,我们的电芯片良率可以达到99.3%,封装良率可以达到94.7%,所以这部分的综合良率现在可以达到90%以上。2027年,我们会自建一条中试线,这个中试线就是要解决超表面良率、光电融合先进封装等问题,为大规模量产和成本优化做准备。”刘哲宇透露:“未来,我们会通过中试的方式,把整个工艺去固化,再给到合作的大厂,推动良率的进一步的提升,实现大规模量产和成本的进一步降低。”
在软件生态方面,相比发展了数十年的电子计算的软件生态,光计算的软件生态相对匮乏。不过,在邹天琦看来,对于客户而言,将现有AI模型迁移到光学计算芯片上的学习成本和迁移成本是可控的,客户可以做到“无感”使用。更重要的是,大模型时代的到来反而降低了新架构芯片构建软件生态的难度。
“我们会提供完整的编译工具链和统一接口,客户无需了解底层光学计算硬件的物理特性,就能够像使用普通AI加速卡一样使用我们的产品。特别是随着大模型的兴起,催生了大量开源编译器框架(如MLIR、TVM)和自动并行策略,新架构芯片的软件适配难度较过去也显著下降。”邹天琦对芯智讯解释道。
当前头部的云厂商是AI加速器的主要客户,他们在这方面的资本支出也是相当的庞大,面对英伟达GPU的成本和能耗持续攀升,也迫使他们不得不纷纷开始自研或引入第三方的专用AI ASIC加速器,以降低成本、提升能效。
因此,在每刻深思的ACCEL芯片商业化策略方面,邹天琦透露,初期将会聚焦于头部的2-3家客户,目前也正在积极沟通当中,在形成阶段性成果后,才会进行规模化复用。
结语
每刻深思的全模拟光电智能计算芯片,代表了光计算领域一条独特且极具潜力的技术路线。与集成光子路线相比,空间光学计算在并行度、能效比和算力扩展方面展现出先天优势,特别是其“光学+模拟”融合架构进一步消除了模数转换瓶颈,将能效和延迟优化推向了新的量级。
虽然,这项技术要从实验室走向大规模商业化,仍需跨越精度、灵活性、封装良率和软件生态等多重障碍。但是,每刻深思已有了跨越这些障碍的应对之策。
在AI算力需求持续爆炸、摩尔定律放缓、国产先进制程受限的背景下,光计算——正成为打破算力瓶颈的一条突围路径。每刻深思能否凭借其清华背景的技术积累和差异化的产品定位,在英伟达、Neurophos、曦智科技等国内外玩家的夹击中脱颖而出,我们拭目以待。
作者:芯智讯-浪客剑
行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116
