这家国产GPU厂商,再获超10亿元融资!

4月20日,国内全栈自研 AI 推理 GPU 企业——杭州曦望芯科智能科技有限公司(简称“曦望”)通过官方微信公众号宣布,已经完成新一轮超10亿元人民币融资。
而在去年7月初,曦望才刚完成近10亿元融资。当时这轮融资由三一集团旗下华胥基金、第四范式、游族网络、北京利尔、松禾资本、海通开元等多家机构共同参与。
没想到,时隔仅10个月不到,曦望又完成了新一轮超10亿元的融资。
至此,分拆独立仅一年多的曦望已累计完成七轮融资,总融资额约 40 亿元,成为国内首家估值超百亿的纯推理 GPU 独角兽。
据介绍,本轮融资资金将主要用于新一代启望 S3 推理 GPU 的规模化量产交付、全栈软件生态建设,以及 S4/S5 后续芯片的研发迭代。
曦望在官方新闻稿中指出,2026 年被行业公认为“AI 智能体元年”。随着大模型从“会聊天”进化为“会思考、会执行”的数字员工,推理需求迎来爆发式增长。英伟达 GTC 2026 大会正式宣告 AI 产业全面迈入“推理落地、智能体普及”的新时代,将“每瓦 Token 吞吐量”定义为 AI 时代的核心竞争力。这与曦望自创立之初就锁定的核心战场高度契合。
“AI 算力基建的重心已彻底切换。”曦望董事长徐冰表示,“2026 年 AI 推理计算需求将达到训练需求的 4-5 倍,推理算力租赁价格半年涨幅近 40%。”
资料显示,曦望前身是商汤大芯片部门,2024年底分拆独立运营,专注于高性能GPU及多模态场景AI推理芯片的研发与商业化。公司研发团队凭借8年技术沉淀、20亿研发投入及两代量产芯片的工程化验证,已成为国产GPU替代的核心力量。公司致力于为千行百业提供成本降低10倍、能效比突破的智能算力基石,通过技术创新和深度产业协同,推动各行业的智能化发展,并助力实现通用人工智能(AGI)的普惠化目标。
目前,曦望团队规模已增长至 400 人,研发人员占比超 80%,汇聚了来自英伟达、AMD、华为海思等国内外顶尖芯片企业的核心人才,硕士及以上学历占比超 80%。团队融合了芯片设计、高性能计算、AI 算法、软硬产品的跨行业人才。
在具体产品方面,曦望目前的产品线主要包括已经量产的曦望S1、S2和即将量产的S3。
△从左至右:曦望 S1、曦望 S2-M1模组、曦望 S2-X1加速卡
其中,S1是面向云端和边缘端视觉推理的专用芯片,主要用于视频分析模型推理,支撑CV类人工智能应用的计算需求,出货量已超过2万片;
S2是面向大模型推理的GPGPU产品,采用采用7nm工艺,兼容主流的英伟达CUDA生态,其性能水平可对标英伟达A100。S2的研发涵盖指令集、GPGPU IP架构、算子开发及编译器工具链等全部核心技术,实现完全自研。
曦望于2026年1月正式发布了新一代旗舰产品启望 S3 推理 GPU。这是国内首款搭载 LPDDR6 且兼容 LPDDR5X 内存的推理 GPU,它没有盲目照搬高端训练 GPU 的 HBM 显存路线,而是基于 Agent 推理的本质需求,从 AI Core 计算架构到内存 IO 系统进行了全链路重构。

据介绍,启望 S3 通过计算层的深度定制,解决了通用 GPU“算力用不满”的核心痛点,推理性能较上一代 S2 提升 5 倍,目标实现 Token 成本下降 90%。
具体来说,启望 S3 将GEMM 和 Flash Attention 两项核心算子(在大模型推理中,占总计算量的 90%以上)的利用率分别推至约 99%与 98%,标称算力几乎都转化为有效吞吐,同样硬件投入可服务更多并发请求。
启望 S3 采用 128-bit 指令集+支持 3D 指令,指令密度领先传统 SIMT 架构;独立线程调度精准匹配智能体复杂控制流,消除条件跳转带来的流水线代价;通过 Block cluster 和 Broadcast 等技术实现片上数据复用,减少对外带宽依赖,大幅提升 Agent 多轮推理效率。
启望 S3 还原生支持 FP16 至 FP4 全链路低精度运算,在 DeepSeek V3/R1 等主流模型上实现接近无损的 FP4 推理,吞吐量较 FP16 提升 3-4 倍,直接转化为客户侧的毛利空间和价格弹性。
在接口方面,启望 S3 创新性地集成了LPDDR6内存接口、高速 SerDes+SUE 融合互联技术、PCIe Gen6接口这三大先进高速接口技术,从内存和 IO 两个推理时代最核心的瓶颈入手,解决了智能体三大核心瓶颈。
从产业周期看,训练侧格局已相对固化,而推理侧正随 Agentic AI 放量进入指数级增长通道——多家机构预测,未来五年推理算力市场规模将超越训练侧数倍,其中 Agent 类负载将贡献最主要的增量。
曦望表示,启望 S3 同时具备三个难以共存的要素:推理原生的架构前瞻性;实现 98-99% 算子利用率的顶尖工程能力;完整的生态适配能力。
“启望 S3 不是简单的性能升级,而是一次对 AI 推理成本曲线的重构。”徐冰表示,“我们的目标是将推理成本降至‘百万 Token 一分钱’,让 AI 像水电一样成为普惠基础设施。”
在本轮融资的助力下,2026 年,曦望将围绕“落地、兑现、增长”核心原则,将全力推进启望 S3 芯片量产交付,完成与国内外主流大模型、多模态模型和Agent框架的全面适配。同时,公司已完成启望 S4 高性能推理 GPU 和启望 S5 安全可控推理 GPU 的技术路线规划,持续加码近存计算、光电共封等前沿技术探索。
编辑:芯智讯-浪客剑
行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116

