重写智能底座,AI Infra的逻辑重构与新机会



产品实战:一线创业者的探索与实践
基于这一判断,AgentEarth.AI正尝试构建面向Agent的一站式专业服务平台,通过底层网络协议优化、动态调用调度、工具推荐与路径规划,帮助Agent在海量服务中实现更稳定、更高效、更低成本的调用。单明辉特别强调,平台并不只是做简单的信息撮合,而是希望以统一接入、统一监控、统一结算的方式,真正提升服务质量与任务完成度。

面对工具与服务数量从十万级走向更大规模、调用链条日趋复杂的趋势,团队一方面通过聚合托管精品工具、优化工具描述与调用逻辑,降低Agent“选错工具、不会组合工具”的概率;另一方面也在推进AI原生智能弹性网络的建设,希望通过自研传—存—算一体化协议、多路径传输与智能调度,进一步优化Agent在广域网络环境下的调用速度、成功率与整体体验。
单明辉介绍,AgentEarth.AI的方案在不同网络质量下相较主流优化协议可实现2至10倍速度提升,同时通过高可靠监控与自动优化调用路径,减少任务链失准与Token浪费。团队也希望依托在AI技术、商业化与前沿网络能力上的复合积累,逐步把AgentEarth.AI做成面向Agent世界的“生态连接”平台。
田洋:不只做芯片,而是重做一台更适合AI时代的计算机
寅谱计算创始人兼CEO田洋则把话题带到了更底层的硬件系统。他反复强调,寅谱计算并不想做一家传统意义上的芯片公司,而是希望成为在集成电路领域有核心技术的计算机企业。
团队的能力重点集中在主板层以上、操作系统层以下这一关键位置,通过智控芯片、协处理器、AI SSD与AIOS等能力,优化功耗、电压、I/O与系统调度,释放整机的极限性能。
田洋特别提到,今天很多人谈AI算力,第一反应是更强的GPU或更贵的服务器,但真正制约AI推理效率的,往往不只是芯片本身,而是主板层面的控制能力、I/O吞吐以及整机在非理想工况下的协同效率。也正因此,寅谱计算试图解决的不再是做一颗“芯片”,而是让现有芯片在更好的系统环境中跑出更高的实际性能。

围绕这一思路,团队正在沿着几条具体产品线推进落地。一方面,是通过智控芯片和协处理器,对CPU、内存、SSD及总线等多个环节进行精细控制,让芯片在供电、散热和负载变化中尽可能接近“理想运行状态”。
另一方面,则针对AI推理中的I/O瓶颈,联合产业伙伴推进AI SSD等产品,并计划推出可插拔式协处理器芯片,用更灵活的方式为特定大模型提供专有加速能力。
同时,团队还在开发AIOS,希望把控制芯片和协处理器层面的能力进一步整合进系统驱动,使操作系统本身也成为更适合AI运行、更便于AI原生调度的底层平台。
在田洋看来,AI时代的机会不只是做更贵的服务器,而是做出兼顾工作站、NAS、游戏主机与Agent机等能力的“N合一”设备,让更多专业用户和中小企业以更低成本获得更强的本地计算与推理能力。
王冠博:端侧将成为下一代AI入口,高质量Token需要在本地被重新供给
万格智元创始人兼CEO王冠博分享了团队对端侧智能的判断。在他看来,随着AI逐步进入个人、家庭与办公场景,用户真正需要的已经不只是Token本身,而是能够持续、低成本、高质量地解决任务的Token供给。云端模型固然强大,但在数据权限、安全性、使用成本和实时性等方面,端侧正在成为越来越重要的入口。
王冠博认为,未来AI不只是一个“问答工具”,而会逐步变成能够处理复杂任务的长期助手,而这类任务天然需要更高权限、更贴近用户本地数据的执行环境。也正因此,相比完全依赖云端,把能力部署在端侧、让设备本身成为任务入口,将是下一阶段AI落地的重要方向。

万格智元正在搭建一套面向端侧的大模型推理引擎与入口平台,通过稀疏化激活、异构推理调度与端侧大模型管理系统,让CPU、GPU、NPU等不同硬件能力协同工作,在有限硬件资源下承接更大模型和更复杂任务。团队想做的,并不是简单把一个小模型塞进设备,而是尽可能让真正有用、能覆盖多数用户需求的模型能力在本地运行起来。
按照王冠博的介绍,团队没有单纯沿着传统量化压缩路线推进,而是更强调一套偏“scaling”的思路:通过减少实际激活开销、优化算子调度,并结合底层管理系统,把不同芯片平台上的计算资源尽可能调动起来,从而支持更高等级的端侧推理体验。
万格智元希望把端侧做成真正的任务入口,再通过路由与调度能力,让高频任务、隐私任务、日常任务尽量留在本地,更复杂、更高价值的任务再交给云端处理。万格智元正在推进面向消费级设备的本地化方案,力求不显著抬高硬件门槛的前提下,让更大参数规模的模型能力真正落到用户设备上。
白寅岐:从超低比特量化切入,把大模型真正装进消费级硬件
BAIZ科技创始人兼CTO白寅岐则从算法层给出了另一种AI Infra答案。他指出,本地大模型部署真正卡住市场的,核心还是显存、成本与速度。今天很多人讨论端侧智能,往往先想到更强的芯片、更大的内存和更高的硬件投入,但在白寅岐看来,如果模型本身的表示方式和推理机制不发生变化,单纯依赖硬件堆叠,始终很难把大模型真正推向更广泛的消费级场景。
也正因如此,团队把主要精力放在模型量化、KV Cache压缩与推理加速上,希望从模型底层“瘦身”,让原本依赖高成本硬件的大模型能力,真正有机会下沉到消费级设备之中。

现场,白寅岐重点分享了团队在模型量化方向上的进展。通过对模型权重与KV Cache进行超低比特压缩,团队尝试在尽量保持精度的前提下,大幅降低模型部署对内存和算力的要求。
团队目前已经可以在几乎精度无损的情况下实现大模型权重和KV Cache的稳定压缩;同时,他们也在针对KV Cache做进一步优化,以提升推理速度、减少冗余计算。
BAIZ正在推动一条能够走向产品化的落地路径:一方面,用更低成本的消费级硬件承载更大参数规模的模型,降低本地部署门槛;另一方面,把这种能力进一步包装成可交付的推理盒子、企业虚拟员工方案乃至未来面向C端用户的个人AI助理。

圆桌会议:AI Infra的真实机会,产业演进路径与关键变量
在随后的对话环节中,许四清与4位嘉宾围绕AI Infra的真实机会展开了进一步讨论。现场交流的话题,既包括跨洋调用背后的协议效率、服务可靠性,也包括主板控制、I/O优化、端云协同、端侧推理、模型量化等多个层面。几位创业者虽然切入点并不相同,但都在回答同一个问题:当AI真正开始进入真实业务流和个人工作流,底层基础设施究竟该如何被重新搭建。

在硬件与系统架构层面。几位嘉宾都提到,AI Infra的竞争正从单点芯片性能转向整机能力、主板控制、I/O优化与协处理系统的协同设计。与其只做单一零部件,不如向下走到更接近最终价值交付的位置,在兼容既有生态的同时,通过控制系统、处理器与整机架构的重构,把同样的平台做出显著不同的性能差异。
这也意味着,AI Infra的机会不只存在于“造更强芯片”,更存在于如何围绕现有芯片、现有平台,重新组织系统能力、提升整体效率。
在端云关系上,现场形成了一个非常鲜明的共识:下一代AI基础设施不会是单一云端逻辑的延续,而会走向一种新的协同负载结构。
端侧能完成的任务应尽可能在端侧完成,云端则承接更复杂、更重型的计算需求;二者不是替代关系,而是重新分工的关系。随着端侧推理能力提升,终端将不只是一个被动入口,而会逐渐成为任务分发和用户需求承接的核心节点。对于用户而言,未来重要的不是“最贵的模型在哪里”,而是谁能以更低成本、更好体验、更高可用性解决真实需求。
而在模型部署与推理效率上,圆桌也给出了非常具体的技术方向。从16bit、8bit向2bit、1.58bit乃至更极致的压缩探索,大家讨论的核心都指向同一个目标:在尽可能保持精度的前提下,把模型真正推向本地部署、端侧运行和更低成本的普及应用。
无论是向量量化、纠错机制,还是面向移动端的适配路径,背后都说明了一点:AI Infra已经不再只是单一的算力命题,而是一场围绕通信协议、硬件架构、系统调度、部署成本与用户体验展开的全面重写。模型能力仍在快速进化,但下一代AI应用能否真正落地,越来越取决于这些底层能力能否率先跑通、跑稳、跑得起。
结语:当AI开始替人工作,智能底座也必须被重新定义
「阿尔法Alpha聚场」是阿尔法公社面向创业者精心打造的交流平台,持续聚焦科技前沿赛道的深度交流,力求打造一个能讲干货、能聊产品、能找同伴的高质量场域。本期活动所呈现的,不只是几条不同技术路线的展示,更是一次关于AI Infra整体图景的集中展开。

当AI真正开始替人工作、进入真实场景,竞争的重心也正在从“模型有多强”,转向“系统是否足够可用”。而这场围绕Agent网络、端侧算力、本地智能与模型优化的讨论,也再次说明,AI Infra正在从过去的底层工程,走向下一阶段AI产业演进中的核心变量。
✦

✦












