3个月,姚顺雨爆改混元 |甲子光年


混元新模型能让腾讯后发制胜吗?
作者|刘杨楠
编辑|栗子
4月23日,腾讯混元新模型Hy3 Preview如期而至。这是姚顺雨从OpenAI加入腾讯后交出的第一份答卷。
此前,业内已经流传起Hy3的传闻,认为其将更贴合姚顺雨在OpenAI时期的研究脉络,重点增强Agent能力。
今天答案揭晓,Hy3 Preview确实在推理和Agent能力上做了重点强化。它是一个快慢思考融合的MoE语言模型,腾讯官方口径更强调其“特别适用于Coding和智能体类场景”,在“实用性和高性价比”上下了功夫。
但在参数规模上,姚顺雨几乎“反其道而行”。Hy3.0 Preview反而比混元2.0更小,总参数295B,激活参数21B,最大支持256K上下文。官方说法是“整体性能达到同尺寸模型最佳水平”。
目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线。微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。
另外,Hy3 preview支持接入流行的开源智能体产品,如OpenClaw、OpenCode、KiloCode等,并已上架腾讯云大模型服务平台 TokenHub。
腾讯首席AI科学家姚顺雨表示:“Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。”
经过「甲子光年」实际测试,整体来看,Hy3 Preview身上几乎看不到姚顺雨加入前的影子。更激进一些说,姚顺雨在重造一个混元。
1.“解决真实世界复杂工程问题的开端”

腾讯的龙虾WorkBuddy前段时间比较火,「甲子光年」在WorkBuddy中实测了Hy3 Preview在“事实审计、文档可视化、AI算力研究”三个场景的真实表现。
首先,我们让Hy3 Preview进行了一次事实审计,输入prompt如下:
针对‘传闻 DeepSeek 宣布 DeepSeek v4 将在下周正式发布并开源,全面适配国产 GPU,编程能力对标国外一线前沿闭源模型’这一网络传闻:
1.请启动全网搜索,从国内外获取至少 5 个来自不同背景(如:官方博客、权威科技媒体、知名财经新闻、X/Twitter 核心爆料人)的核验信源;
2.对比这些信源对该事件的描述,特别标注出在“发布时间”、“核心能力说明”以及“官方回复状态”上的任何细微不一致点;
3.基于你搜集到的所有证据,给出该传闻的“信度评分”(0-100)并详细解释理由。
4.请整理成一份逻辑严密的 Markdown 报告发给我。
Hy3 Preview给到了以下总结,并且也同步生成了一份详细的报告。

图片来源:「甲子光年」截图
接下来,我们测试了文档可视化功能:
腾讯23年.pdf 腾讯24年.pdf 腾讯25年.pdf
请严格基于我提供的腾讯2023年、2024年和2025年年报文件进行分析。报告中所有数据、数字和文字描述必须且只能来源于所提供的文件原 文,禁止引用外部信息或自行推测因果。分析某一年度时,所引用的具体产品名、业务事件等必须来源于该年度的年报,不得跨年引用。如需拆分子项数据,必须确保子项合计等于母项总额,单位必须保持一致。如文件中缺少某项数据,请标注"年报未披露"而非编造。报告正文中不要引用或粘贴年报英文原句,用中文自然表述即可。
分析以下两个维度,最后以单个HTML文件呈现。报告整体风格需具备官方年度汇报感(配色克制、排版紧凑、图表专业),页面不要有多余留白:
一、核心财务数据(三年对比)
从年报中提取你认为最关键的5个财务指标,用表格展示2023-2025年的数值,并配合图表可视化趋势。对关键变化给出简要分析。
二、业务板块收入结构(三年对比)
按年报披露的业务分部,展示各板块2023-2025年的收入金额与占总收入比例,配合图表呈现收入结构变化。分析核心收入驱动板块、增速最快板块及三年间结构变化。
分析完成后,保存为HTML文件,命名为《腾讯三年财报分析-showacse》
几分钟后,Hy3 Preview反馈了一版看上去还算美观的网页版报告:
视频来源:「甲子光年」录屏
进一步,我们对这个网页版报告做了视觉优化,添加了一些动画效果。这一次的输出结果确实比较酷炫,只是配色上让用户反而看不清其中的数据了。
视频来源:「甲子光年」录屏
整体上看,WorkBuddy接入Hy3 Preview后,对于复杂任务完成效果确实有很大提升。
我们再看下Hy3 Preview在“AI算力研究”场景下的输出结果表现,大致需求是:“以'CPU 瓶颈转移'为引子,调研 NVIDIA Vera Rubin 定位及国产 CPU 出货表现。发现机会与陷阱,给出投资建议。”
下面是Hy3 Preview的输出结果(部分):
AI算力方向CPU子品类深度调研报告
——全球供需格局、国产替代与未来展望
报告日期:2026年4月23日
分析师:资深行业分析师
报告类型:深度行业研究
执行摘要(Executive Summary)
核心结论
1.全球CPU供应出现严重短缺:2026年Q1,Intel和AMD企业级CPU交付周期延长至6个月(Intel)和8-10周(AMD),价格累计上涨10-20%,AI基础设施需求爆发是主要驱动力。
2.x86架构面临多重挑战:NVIDIA Vera Rubin CPU的推出、ARM架构在云数据中心的快速渗透、国产CPU的崛起,共同冲击传统x86服务器市场。
3.国产替代加速:华为鲲鹏在中国服务器市场份额已达20%,中国移动2026年集采ARM服务器占比65%,创历史纪录。
4.CSP自研成主流趋势:AWS Graviton4、Google Axion、阿里倚天710等自研ARM CPU在TCO上较x86节省18-20%,性能媲美甚至超越x86。
5.未来1-2年预测:2026-2027年CPU市场将呈现"x86守成、ARM进攻、国产突围"的三足鼎立格局,AI推理需求将成为最大增长引擎。
噢对了,对于难倒一众模型的“距离洗车店50米,是开车去还是走路去”的问题,Hy3 Preview也在1秒钟之内给到了正确而风趣的答案。

图片来源:「甲子光年」截图
要知道,这个问题DeepSeek深度思考了9秒,告诉我应该走路去。

图片来源:「甲子光年」截图
从实测的结果看,Hy3 preview的表现确实不错,而这一点在权威评测榜单中的分数也有诸多体现。
首先,上下文学习和指令遵循能力明显提升。此前,姚顺雨已经发布论文,提出CL-bench和CL-bench-Life两套评测标准来创新性地评估模型的上下文学习能力。可以看到,Hy3 preview表现明显提升。

图片来源:腾讯
在复杂推理能力方面,Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务,以及最新的清华大学求真书院数学博资考(26春) 和全国中学生生物学联赛(CHSBO 2025) 中均表现良好,这也体现了其可泛化的推理能力。

图片来源:腾讯
在代码与智能体提升的提升则最为明显,且在此基础上表现出了较高的性价比。
通过预训练及强化学习框架的重建和强化学习任务规模的提升,腾讯混元以较快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代码 智能体基准以及BrowseComp、WideSearch等主流搜索智能体基准中均较有竞争力。

图片来源:腾讯
同时,Hy3 preview在ClawEval和WildClawBench等评测中表现突出,表明我们的智能体能力正在稳步走向全面与实用。

图片来源:腾讯
除了公开榜单,腾讯混元还进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max 上,Hy3 preview 均体现出了强竞争力。

图片来源:腾讯
比较各个开源模型的大小与智能体综合表现,Hy3 preview展现出高性价比。

图片来源:腾讯
可以看到,多个测评结果显示,Hy3 preview模型能力都有了全面提升。
2.姚顺雨“重造”混元
从实际的体感看,Hy3 Preview和之前的混元系列有很强的断裂感。
混元系列此前的发布思路,几乎就像这个名字一样混沌不清。混元体系看似在图像(混元图像3.0)、视频(HunyuanVideo)、3D生成方面形成了完整矩阵,但基本都在跟随行业风向,做一些不会出错的动作。就以上一代的混元2.0为例,腾讯官方仍在强调其在数学竞赛、科学推理、代码生成等Benchmark上的全面表现。
但这一次,Hy3 Preview的气质明显变化。
首先,在技术架构方面,原来的混元2.0采用Think和Instruct两个独立版本的策略。Think版针对高难度复杂推理和代码生成等进行深度优化;Instruct版则侧重于通用场景下的高效响应与指令遵循。这种设计好处是能针对不同任务“专项特调”,但代价也不容忽视:用户需要自行判断任务复杂度并手动切换模型,体验上是割裂的。
而Hy3 Preview实现了单一模型内的快慢思考融合。模型根据任务复杂度自动调节思考深度,用户无需手动切换。这个设计直接呼应了姚顺雨在OpenAI开发Operator和Deep Research时期的经验。
Operator主打对计算机系统进行通用操作,Deep Research则瞄准科研、法律、金融等知识密集型领域,二者的共同经验是:真实世界的任务往往是混合型的,既需要快速响应的简单子任务,也需要深度推理的复杂环节。将两者割裂,本质上会降低Agent的端到端效率。
在效率优化方面,Hy3 Preview总参数从混元2.0的406B降至295B,激活参数从32B降至21B,缩减幅度约27%,直接将腾讯拉出了“卷参数”的泥潭。
2026年1月10日,姚顺雨官宣加入腾讯后首次公开演讲时明确指出:“单纯的模型参数竞赛已不是C端产品的全部”,AI下半场的关键不在于谁拥有最多参数,而在于谁拥有最多“Context”(上下文)。
此外,Hy3.0 Preview的上下文利用效率也有所提升。姚顺雨加入腾讯后的首篇论文关注的正是“从上下文学习”的困难。
研究团队构建的CL-bench测试显示,即便把解题所需的全部信息都喂给模型,全球最强的模型任务解决率也仅有23.7%。这篇论文得出的结论是:当前前沿模型在上下文利用上依然存在显著的能力短板,而上下文学习能力恰恰是影响模型在真实世界任务完成效果的核心分水岭。
在成本方面,得益于模型和推理框架上的深度协同,以及在推理框架、算子性能、量化算法等全方面优化,整体推理效率提升40%,Hy3 preview的成本相比上一代模型大幅下降。
在腾讯云大模型服务平台 TokenHub 上,Hy3 preview 输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。同时,腾讯云联合混元推出定制的 Hy3 preview Token Plan 套餐,个人版定价最低28元/月,为Agent开发和打造“龙虾”应用的提供更具性价比选择。

图片来源:腾讯
在目标场景上,Hy3 Preview的优势场景被明确收敛到两个方向:Coding和智能体应用。
这个方向和姚顺雨此前的研究路径一脉相承。他在博士期间提出了思维树(Tree of Thoughts)框架改进决策模型,随后构建了CoALA模块化认知架构,在OpenAI期间又主导提出了ReAct方法——首次将“推理-行动”结合的智能体范式系统化,目前已成为全球构建语言智能体的主流方法。
从ReAct到CoALA再到Tree of Thoughts,这条学术脉络的核心问题意识始终如一,就是通过增强推理能力,让模型有更好的泛化效果,同时打造一款能在真实场景发挥实际作用的Agent。
姚顺雨曾对Agent的发展颇有信心,他认为:“智能体在To B方向的发展呈一条不断上升的曲线,且看起来没有变慢的趋势。只要预训练不断地变大,后训练不断地把这些真实世界的任务给做好,它就会带来越来越大的价值。”
姚顺雨的逻辑很清晰:先把底层模型的Agent能力做实,应用层的价值释放才有根基。
3.腾讯还能延续“后发制胜”的传统吗?
在中国互联网江湖,腾讯有一个著名的“后发制胜”策略。他们不喜在风口最热时入场,总是等市场教育完成、模式验证清晰后再大举投入,借助资源和服务能力后来居上。
但在AI时代,腾讯还能延续这一传统吗?
要回答这个问题,首先要看当前同样强调“实用性和高性价比”的主要玩家:DeepSeek凭借极致的性价比建立了强品牌认知;Qwen坚持开源路线,提供丰富的模型尺寸、成为开源社区宠儿;字节豆包则背靠抖音流量快速增长。
在这个竞争格局中,腾讯的差异化路径是什么?
腾讯最大的差异化优势,恐怕就在于拥有微信(14亿用户)这个超级入口。姚顺雨在内部明确提出:“模型迭代需要真实世界的约束和评估。”而微信恰好提供了这个“真实世界”——海量用户、复杂场景、即时反馈。只是,腾讯此前似乎一直没考虑好怎么用将微信和AI融合。
在被动跟随的时间里,腾讯已经在一些维度落后对手一个身位。
首先是开源生态建设滞后。 DeepSeek通过完全开源建立了强大的开发者生态;Qwen通过Apache 2.0协议和丰富的模型尺寸选择成为开源社区宠儿。相比之下,腾讯混元的开源策略较为保守,社区参与度不足,尚未形成明显的网络效应。
其次,并未形成明确的技术特色,很难占领牢固的用户心智。 在AI助手领域,DeepSeek凭借“性价比之王”建立了强品牌认知,Kimi凭借长文本特色出圈,豆包背靠抖音流量快速增长。腾讯元宝虽然接入混元,但用户心智尚未稳固,“混元”品牌在开发者中的认知度弱于DeepSeek和Qwen。
技术透明度和学术影响力不足。 DeepSeek和Qwen团队持续发布高质量技术报告,在顶会上有活跃发声。腾讯混元的技术发布相对封闭,学术影响力有限。姚顺雨虽然个人学术声誉卓著,但多大程度上能转化为腾讯整个技术团队的凝聚力和工作效率,仍然需要时间验证。
总体上看,腾讯能否在AI时代延续“后发制胜”的传统,取决于它能否通过在模型能力的追赶,建立起真正的竞争壁垒。Hy3 Preview的发布,是腾讯AI战略的一次重要转折。它标志着腾讯不再盲目追随行业的参数竞赛,而是开始主动探索差异化路径。
只是,这一切技术或战略转变,几乎都以姚顺雨为支点撬动的。姚顺雨带来了全新的理念,但这些技术理念能否和腾讯原有业务体系结合,完成商业转化,仍需要时间验证,也考验着腾讯的执行效率。
一个千亿互联网巨头的AI重担,再一次压在了一位年轻的、有明确技术理想的、充满锋芒的掌舵者肩上。这个故事似曾相识,但它会在腾讯长出不同的结局吗?
(封面图来源:AI生成)

END.



