云知声U2冲进第一梯队,大模型开始比拼“智能密度”|甲子光年


智能密度×Token价值,才是下阶段AI的核心竞争力。
作者|麦子
编辑|栗子
AI热身赛已经结束。
过去三年,大模型行业奉行的逻辑简单粗暴,认为参数越大越好,推理链越长越聪明,算力投入越高越能打。千亿、万亿参数的军备竞赛,一度成为衡量一家AI公司技术实力的最直观标尺。
可是,当模型能力逐渐逼近天花板、Agent调用越来越频繁,推理成本日益成为企业部署的隐形门槛。整个行业不得不开始思考一个新的问题:下一个阶段,AI的核心竞争力是什么?
云知声的回答是:智能密度×Token价值。
2025年6月8日,云知声上市恰满一年的时间节点,发布了自研新一代基座大模型U2。U2秉承高智能密度与高Token价值的设计哲学,从底层架构开始重构,采用快慢思考融合的MoE混合专家范式,以10B的极低激活参数实现行业顶级任务表现。
在业内多项评测中,U2不仅在长文本、知识推理和指令遵循等核心基础能力上全面领先,更在复杂代码工程与Agent协同办公等真实任务场景中跻身行业第一梯队,以更低的算力投入兑现顶级任务完成能力,展现出企业级智能体大规模落地的现实价值。
可以看出,这不是一次简单的产品迭代,而是云知声用十三年积累回答AI行业下半场问题的一次公开发声。参数竞赛终会结束,但智能创造价值的能力,才决定一家AI公司最终能走多远。而云知声先一步行动,开始推动大模型从“Token驱动”迈向“状态驱动”的自主执行时代。

1.从回答问题到完成任务,
U2为何一出现就能跻身第一梯队?

过去三年,大模型行业几乎都在遵循同一套逻辑。更大的参数规模、更多的训练数据、更高的算力投入,仿佛模型越大,能力就越强。
相比追逐万亿参数,U2更关注单位Token承载多少有效知识、创造多少业务价值。这背后的底层逻辑是云知声提出的核心公式:AI行业价值=智能密度×Token价值。智能密度解决的是“单位参数里装了多少真实知识”,Token价值解决的是“每一个输出Token是否真正创造价值”。
最新的测评显示,U2展现了极度务实、面向真实企业级落地场景优化的强大实力。U2在长文本理解、核心知识推理和复杂指令遵循等基础能力评测中全面领先,充分印证了其“高智能密度”的设计理念。
更值得关注的是,在代码工程和Agent实战等更接近真实生产环境的测试中,U2同样稳居行业第一梯队。无论是深入真实GitHub开源仓库完成代码修复与单元测试跑通,还是在多工具协同的复杂办公环境中完成长流程任务交付,U2都展现出原生Agent架构所具备的规划、执行与验收能力。
这意味着,U2仅仅以仅10B激活参数,不仅在基础模型能力上达到行业领先水平,更在真实任务场景中证明了自身的工程化落地能力,最终实现了比肩顶级大模型的任务完成效果。

但评测只是起点,真正的考验来自现实场景。对于优秀的Agent来说,多步自主执行能力意味着,不仅要会干活,更要能把活干完,甚至能够处理越来越复杂的大型任务。
为了测试U2的工具调用与环境交互能力,我们给它布置了一个经典任务:开发一款俄罗斯方块小游戏,要求单文件运行、支持方向键控制、实时计分,并具备完整视觉效果。
接收到任务后,U2直接自主完成需求拆解、架构设计、代码编写、运行验证等一系列操作。几分钟后,一个可直接运行的产品已经生成,可以看到渐变色方块、动态粒子背景、完整交互逻辑一应俱全。
更有挑战的是多摆混沌系统模拟器。这个任务要求模型理解混沌摆背后的物理原理,从拉格朗日方程推导开始,完成数理建模、数值求解、动态渲染和交互控制,最终生成一个可实时运行的可视化系统。
从科学原理到工程实现,U2能够自主完成需求解析、架构设计、代码编写、环境调试和自主Debug,展现了端到端的软件工程交付能力。
可以看到,面对大型工程项目,U2不仅能够维护多文件之间的依赖关系、接口定义和调用逻辑一致性,还能够在复杂协作链路中完成代码修改、功能验证与结果验收,将原本割裂的开发流程整合为一条完整的执行链路。
但会干活,还不等于能高效、准确地把活干完。真正考验Agent能力的,是面对长流程、多步骤任务时,能否持续保持目标一致性,并最终完成交付。
我们让U2生成一份新能源汽车行业全景分析报告:要从市场规模、竞争格局、技术路线、政策环境、基础设施、未来趋势等维度进行分析,判断新能源汽车行业的发展趋势。
这类任务背后涉及市场数据获取、行业信息检索、风险测算、风格分析、宏观研判以及最终报告生成等多个环节。最终U2呈现出来的结果,是一份结构完整、逻辑清晰、具备参考价值的专业研究报告。
整个过程,U2的表现像一个真正的研究团队负责人。接收到目标后,它会自主拆解任务、规划执行路径,并根据不同阶段调用对应工具,完成数据获取、信息筛选、逻辑推演和结果验证,将多个独立环节整合为一条完整执行链路。
而在办公场景中,U2展现出的则是Agent能力的更高阶,多Agent协同与动态编排的情况下,持续保持稳定执行的状态。
我们给U2的任务包含十余项约束条件,如历史遗留问题处理、新流程设计目标、客户服务规范、突发情况预案以及时间安排要求,多个目标之间还存在复杂依赖关系等。
最终,U2根据任务特性自主裂变并分配控制型、执行型、验证型等不同角色,形成明确的分工阵型。它不仅生成了规范的PDF备忘录和配套Excel日程表,还自动完成日期替换、逻辑校验、细节补充和流程优化建议,几乎无需修改即可投入使用。
可以看到,面对需要多领域知识、多步骤验证以及并行探索的复杂任务时,U2能够根据任务特性自主拆分目标,分配不同角色协同完成。
这种协作模式的价值在于,它让模型不再依赖单线程思考,而是能够同时探索多种可能路径,并通过交叉验证持续提升结果质量。对于复杂研究、多环节决策以及跨领域任务而言,这种能力意味着更高的执行效率、更低的试错成本以及更强的任务完成能力。
从软件开发到行业研究,再到复杂办公场景,U2展现出的并不仅仅是更强的推理能力,而是一套完整的Agent能力体系:工具调用让它能够行动,长程规划让它能够持续执行,多Agent协同则让它能够处理更复杂、更庞大的任务。
总之,从性能到真实场景落地,U2始终围绕一个目标:把智能真正变成生产力。真正优秀的Agent,不只是会干活,而是能够干得完、干得快、干得省,并最终创造持续的商业价值。从这个意义上说,U2已经完成了从“生成答案”走向“完成任务”的一次跃迁。
2.如何把每一个Token的价值榨到极致?
为什么一个激活参数仅为10b规模的模型,能完成许多百亿、千亿模型都做不好的任务?
如果沿用过去三年的逻辑,这几乎是不可能发生的事情。因为行业默认更多参数意味着更多知识,更长推理链才能实现更强能力。
而U2恰恰走了一条相反的路。相比生成更多Token,它更关心每一个Token是否真正创造价值;相比堆积更多参数,它更关注单位参数究竟承载了多少有效知识。
这也是云知声提出“高智能密度×高Token价值”的原因。
而要实现这一目标,首先要解决的是模型架构问题。
传统稠密模型往往依赖不断扩张参数规模提升能力,而U2从设计之初便采用了稀疏MoE架构。每次推理过程中,模型只激活完成当前任务所需的专家网络,而不是调动全部参数参与计算。知识存储与知识调用被有效解耦,使模型能够在更小的激活参数规模下维持顶级任务能力。
换句话说,U2追求的是更高的参数利用率。
当然,这些仅仅依靠更高效的架构还远远不够,这就要从根本上解决“思考”的问题。
今天许多推理模型都存在一个共同问题。为了得到正确答案,会生成极长的思维链。模型看起来思考得很认真,但大量Token实际上消耗在中间过程,而不是最终结果上。
U2则采用了隐式思考机制。传统模型需要将每一步推理都转化为自然语言Token,而U2能够直接在连续隐空间中完成大量中间推理,仅在关键决策节点切换回显式推理进行验证。简单理解为,就是先在内部完成大规模探索,再将真正有价值的推理结果呈现出来。
云知声大模型事业部总经理刘升平博士举了一个医疗场景的例子。一份病历生成任务,传统模型往往需要输出2000至3000个Token,而采用隐式思考技术后,U2能够将输出压缩到1000个Token以内,同时保持结果质量。
对于用户来说,看到的变化很直接,就是更少的Token消耗、更快的响应速度,以及更低的推理成本。
然而,真正决定Agent能力上限的,并不是思考而是执行。
今天很多Agent仍然依赖大量外部工作流和规则系统完成任务规划、工具调用和过程控制。而U2选择尽可能将规划、执行、记忆、校验和纠错能力训练到模型内部。刘升平把这种思路概括为一句话:“大模型做厚,Harness做薄。”
为此,云知声将模型原生Agent能力的提升与Harness(任务执行脚手架)的迭代优化纳入同一训练闭环,形成双向强化的协同演进机制。此外,云知声通过课程学习的核心直觉模拟了人类学习规律,并基于过程奖励信号识别出无效动作的同时,又能奖励"看似迂回但开辟关键路径"的高价值探索。
在训练过程中,Harness持续提供高质量任务环境与反馈信号,而模型则不断吸收执行过程中的成功路径、失败路径和优化轨迹。随着训练迭代推进,原本依赖外部框架完成的能力逐渐内化为模型本身的能力。
这也是为什么在金融研究、办公自动化和软件开发等复杂场景中,U2往往能够以更少轮次完成任务。当许多模型还在不断确认下一步应该做什么时,U2已经开始主动拆解任务、调用工具并推进执行。
最终,这些能力又进一步转化为成本优势。除了MoE带来的稀疏激活机制之外,U2还通过“隐式探索+显式验证”压缩推理开销,通过上下文自适应记忆机制减少无效上下文累积,并利用FP8全链路精度优化进一步降低训练和推理成本。
因此,云知声并没有选择通过堆参数、堆算力换取能力,而是试图通过更高效的架构、更高效的推理方式以及更原生的Agent训练体系,让每一个参数承载更多知识,让每一个Token创造更多价值。
如果说过去的大模型在追求“更多参数、更多Token”,那么U2追求的只有一件事,就是让每一个激活参数承载更多知识,让每一个生成Token创造更多价值。
这看似只是技术路线的不同,背后却代表着AI行业正在从参数竞赛走向价值竞赛。
3.当Agent变成生产力,
云知声为什么能最先抓住机会?
云知声的发展轨迹,某种程度上也是AI产业技术演进的缩影。
从语音识别到自然语言理解,从智能交互到大模型与Agent,过去13年,云知声始终跟随AI技术演进的主线前行。正因云知声持续迭代,才能在每一次技术浪潮到来的时候,都在原有能力基础上先于同行向前迈进一步。
所以,云知声发布的U2,更像是云知声过去所有技术和产业数据积累的一次集中兑现。
当大模型浪潮席卷而来时,很多公司最头疼的问题是缺场景、缺数据、缺真实业务验证环境。
而云知声手里握着的,是过去十余年沉淀下来的数据资产。
过去十三年里,云知声语音识别只是入口,长期扎根于医疗、交通、IoT等复杂行业场景,手握持续沉淀下来的真实数据、业务流程和行业知识。在医疗领域,云知声已经服务超过450家医院;在轨道交通领域,打造了业内首个智慧地铁站;同时,云知声还为家电、车载等终端提供语音交互方案。
这些业务看似彼此独立,但背后却在持续沉淀了最稀缺的资产:真实世界的数据,以及对真实业务流程的理解。
在ChatGPT时代,这些积累看起来只是垂直行业经验。可是到了Agent时代,它们开始变成训练模型最稀缺的养料。
正是基于这些积累,云知声逐渐形成了一套独特的“双模型飞轮”。
一端是通用大模型,负责推理、规划、工具调用和Agent执行能力;另一端是医疗、智慧交通、智慧座舱等行业模型,持续沉淀垂直领域知识和真实场景经验。
更重要的是,两者并非独立存在,而是在不断相互强化。
每天产生的新业务数据、新流程和新反馈,会首先沉淀到行业模型中,形成新的专业知识和场景经验;而这些经过真实环境验证的知识,又会持续反哺通用大模型,让模型学习到更接近真实生产环境的问题与解决方式。
于是,一个正向循环开始形成:场景产生数据,数据训练通用模型。当通用模型能力升级,又可以为专业级模型赋能,反过来为垂直场景创造更多价值。
时间越久,这个飞轮转得越快。所以,当许多公司还在寻找落地场景时,云知声已经拥有了一套持续进化的数据与知识体系。
但真正让云知声发生变化的,还不只是技术。上市之后,云知声开始进行一次内部称之为“二次创业”的组织变革。
过去,研发、平台和项目交付分散在不同部门,组织结构服务于项目制的商业模式;而Agent时代需要的是从模型研发到商业化落地的快速闭环。“以前我们认为技术好就可以拿下更多客户,但在agent时代价值驱动成为主流,光讲技术有多少牛意义不大,要说清楚我们的大模型能解决多少问题,能带来多少价值。”刘升平强调。
于是,云知声开始打通研发、平台和业务团队,让模型能力、产品能力和商业化能力同步迭代。有意思的是,就在云知声大模型事业部成立后没几天,阿里也宣布成立Token Hub事业群,将大模型部门、ToC应用和ToB销售合并。几乎是相同的组织逻辑绝非巧合,这是AI行业一个即将成为主流的趋势。
过去卖的是项目,未来卖的是产品;过去交付的是方案,未来交付的是持续创造价值的智能体。现如今,市场已经开始给出正向反馈。根据云知声发布的2025年年报数据,云知声全年实现总收入12.11亿元,较2024年的9.39亿元增长29.0%。
云知声业绩最大的亮点在于大模型相关业务的爆发式增长。公告显示,该部分收入从2024年的5187万元跃升至2025年的6.10亿元,增幅超过10倍。这一数据印证了公司“强基模、深应用”战略在商业化落地方面的初步成效。
还有一组容易被忽略的数据。云知声5月Token调用收入对应的ARR环比增长约600%,预计6月仍将保持高速增长,对应ARR有望提升至1500万美元。
这些数字不仅意味着云知声的产品开始被市场接受,更意味着它正在从一家传统AI公司,转变为一家依靠模型能力持续创造价值的AI基础设施公司。
当行业开始按Token算账,企业开始为结果买单,谁能够把智能持续转化为生产力,成为新的竞争力。
十三年前,云知声试图解决的是“机器如何听懂人”;十三年后,U2试图解决的问题已经变成了“机器如何替人完成工作”。
从语音交互到原生Agent,从理解世界到执行任务,云知声走过的十三年,本质上是在不断缩短机器与生产力之间的距离。而U2,正是这条路径走到今天交出的最新答案。
(封面图来源:AI生成)

END.




