姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测

作者 | 褚杏娟、蔡芳芳
今天,腾讯正式发布了新模型 Hy3 preview,这是姚顺雨加入腾讯后带领团队发布的首个模型。
姚顺雨团队没有从万亿规模模型入手。Hy3 preview 是一个快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,主打性价比。Hy3 preview 的模型能力提升,适用于 Coding 和智能体(例如龙虾)类场景,是一个在实际应用中具备实用性和高性价比的基础模型。
Hy3 preview 是腾讯尝试解决真实世界复杂工程问题的开端。腾讯希望将 Hy3 preview 置于真实的业务场景中,通过 WorkBuddy 这一面向知识工作者的智能体(Agent)生产力框架,让 AI 与用户共同完成能力的持续进化。
腾讯表示,这是混元重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。
2026 年 2 月,腾讯混元重建了预训练和强化学习的基础设施,以及模型追求实用性的三个原则:
能力体系化: 不推崇“偏科”,因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。
评测真实性: 主动跳出易被“刷榜”的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。
性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。
模型发布的同时,腾讯官方也给混元系列换了新的logo,俨然一副“重新出发”的感觉:

腾讯首席 AI 科学家姚顺雨表示,Hy3 preview 是混元大模型重建的第一步。“我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度 Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。”
今年初,在 AGI-NEXT 会议上,姚顺雨就坦言,腾讯仍然是一家 To C 基因更强的公司。因此,腾讯更关心的问题是:如何让今天的大模型真正为用户创造更多实际价值。
他认为,To C 场景里,很多问题的关键并不只是模型变得更大、更强,而是能否拿到更多上下文信息。姚顺雨举例说,像“我今天该吃什么”这样的问题,看似简单,但如果没有足够的上下文,模型很难给出真正贴近用户当下需求的答案。比如天气是否很冷、活动范围在哪里、是否需要考虑伴侣的安排,这些额外信息往往比继续做更大模型、更强强化学习或者更强搜索更重要。
值得注意的是,姚顺雨加入腾讯后的首次署名研究论文也是关于上下文。腾讯混元官网在 2 月发布了姚顺雨团队加入后的首个公开成果 CL-bench,专门测模型能不能从上下文中学到新知识并正确应用。姚顺雨强调不要只盯榜单,更重要的是把系统放进真实世界约束中评估。
腾讯在集团层面也在加速将 AI 融入游戏、广告和社交等核心业务,这体现在了最新财报中:增值服务收入同比增长 14% 至 899.2 亿元;营销服务收入同比增长 17% 至 411.2 亿元;金融科技及企业服务业务收入同比增长 8% 至 608.2 亿元。
公司还围绕大模型能力和 AI 产品矩阵持续推进,WorkBuddy、QClaw 等“小龙虾”系列 Agent 陆续上线。但更让人关注的是财报媒体会上,腾讯宣布混元 3.0 计划于 4 月陆续向外开放。自引入姚顺雨后,腾讯围绕 AI 组织与人才体系进行了一系列密集调整,而这一系列动作的效果一定程度会反映在最新的模型上。
很明显,Hy3 preview 既是符合姚顺雨和腾讯业务理念的模型,也是大众对腾讯的一次检验。
根据官方多个测评结果,Hy3 preview 模型能力全面提升。
在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于腾讯业务场景的灵感,腾讯混元提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。

复杂推理能力是模型解决各种问题的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考 (26 春) 和 全国中学生生物学联赛 (CHSBO 2025) 中取得优异成绩,展现了可泛化的强推理能力。

代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,腾讯混元以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了有竞争力的结果。

在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景(例如 OpenClaw)中是否真正具备可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等评测中表现突出,表明我们的智能体能力正在稳步走向全面与实用。

除了公开榜单,腾讯混元还进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max 上,Hy3 preview 均体现出了强竞争力。

比较各个开源模型的大小与智能体综合表现,Hy3 preview 展现出高性价比。

得益于模型和推理框架上的深度协同,以及在推理框架、算子性能、量化算法等全方面优化,整体推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。
在腾讯云大模型服务平台 TokenHub 上,Hy3 preview 输入价格最低 1.2 元 / 百万 tokens,输入命中缓存价格 0.4 元 / 百万 tokens,输出价格最低 4 元 / 百万 tokens。同时,腾讯云联合混元推出定制的 Hy3 preview Token Plan 套餐,个人版定价最低 28 元 / 月,为 Agent 开发和打造“龙虾”应用的提供更具性价比选择。


而在正式上线之前,Hy3 preview 在腾讯主要 AI 业务进行了产品测试,获得明显正收益。
比如在元宝端,混元与元宝进行了深度 Co-Design。一方面,针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面,对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同,为用户带来了更智能且更具“活人感”的交互体验。
在 ima 知识库问答和通用问答两个场景下,Hy3 preview 处理长文的能力出色,特别是检索类任务,在回答信息的准确性、覆盖度和全面性上表现较好。
在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+。实际用户环境中,Hy3 preview 已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。
而在公众号 AI 分身和 AI 客服的场景专项评测中,Hy3 preview 展现出相比 Hy2 更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,面对模糊提问、短句追问和多轮对话时,能够更准确地把握用户诉求,并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合 AI 分身和 AI 客服的角色,过度脑补、主观代入和情绪化表达显著减少,使整体交互体验更贴近“可信、自然、高效”的回复目标。
另外在和平精英 AI NPC 场景评测中,和平精英团队第一时间在 Hy3 preview 上线后基于 AI NPC 场景中完成接入并开展评测,整体表现令人印象深刻。在游戏局外的人设扮演场景中,Hy3 Preview 不仅能够精准理解角色设定,还能针对开放性问题输出高度关联、富有增量价值的内容,带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中,模型回复节奏贴近真实玩家聊天体验,展现出优秀的稳定性与出色的拟人化扮演能力,整体效果表现亮眼。
在腾讯文档 AI PPT 场景,较上一版本(Hy2)取得了显著进步:生成成功率提升 20%,评测得分提升 10%,同时生成耗时缩短 20%。整体而言,新模型在评测场景中表现优异,在模版选择,色彩匹配,生成大纲,补充内容多个阶段,均体现出优秀的表现,无幻觉,契合主题,视觉效果好。
在 QQ AI 助手小 Q 产品评测中,较上一版本,在长文本首字节时延、整体响应速度与流式输出效率方面显著优化;核心能力上,数学推理表现提升尤为明显,多场景指令遵循与泛化能力进一步增强;在工具调用推理及多轮指代消解方面表现更稳定高效,在 OpenClaw 官方 PinchBench QQ 智能体场景测试中取得突出效果,综合体验实现明显跃升。
目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。
InfoQ 有幸提前进行了测试,整体使用下来,一句话总结就是:这是个用理性解决问题的帮手。下面是我们做的五个小测试,包括国外播客整理翻译、研究报告、前端网站搭建、物理理解和 Skill 测试,期间 Hy3 preview 做得好的地方、不好的地方,都非常明显。
第一个小任务,尝试让 Hy3 preview 给英文采访视频提炼核心内容和亮点。这也是我们的日常工作场景之一。



下面是思考过程:



Hy3 preview 无法直接访问我给的链接,于是先尝试了用浏览器自动化工具来访问,过程中会自己尝试安装缺少的工具 agent-browser ,不过安装失败了。于是它改为使用 Python 脚本来获取视频信息,这一次获取成功了。最后基于获取到的视频基础信息,它进一步搜索到了这期播客的 newsletter 页面,并获取到了更详细的介绍。
我让它根据视频内容提炼 10 个关键亮点,它实际是从 newsletter 页面上总结的亮点中选取了一些给我(分别是页面里的第 1-8、10 和 12)。整体来说 Hy3 preview 比较顺利地完成了任务,虽然它和其他模型一样无法直接通过视频链接抓取到内容,但它很务实,不会凭空瞎编一些亮点(我在骂谁我不说🤐)。
下一步,让 Hy3 preview 提取视频字幕文件。

它花了一点时间(差不多 10 分钟),反复尝试多次,最终成功获取到了这个视频的英文字幕文件。中间尝试了不同方法,自动安装所需工具。
思考过程:




我问它获取字幕文件花了多长时间,它混淆成了从一开始给它视频链接到刚才完成获取字幕文件整个过程的总用时,所以给到了 40 分钟的答案。但实际获取字幕文件这一步的时间差不多是 10 来分钟。总体而言反思态度很好,也很会总结经验、给自己打气。


接下来尝试让它将字幕文件中第一段 10 分钟的内容翻译成中文,它耗时 5 分钟后完成翻译,并生成了 markdown 格式的文件可以直接下载。


它这一步依然是通过 Python 脚本的方式来完成的,这一步的思考过程:


不过它的翻译成果不算特别理想,存在几个问题:部分英语词汇可以翻译成中文但它没翻译;前后技术术语不一致;说话人识别还是存在错位情况。
不过平心而论,使用其他模型翻译视频播客的时候我们也经常会遇到类似问题,最终要达到可发布状态都需要进一步人工精调。而且这次由于时间有限,没有对 Hy3 preview 做更多更精细的调教,这也会在一定程度上影响最终效果。
这里附上这个视频访谈开始的第一段 QA,大家可以对比一下。一个是基于 GPT-5.4(Instant)翻译并经过人工润色的结果,一个是混元 3 初步翻译的结果。
GPT-5.4(Instant)翻译并经过人工润色版本(文章已在 InfoQ 发布 《从拒绝 AI 到一切先问 Agent,DHH:这是我最爽的编程时刻之一,但程序员黄金时代到头了》):

混元 3 初步翻译版本:

有一个地方是 GPT-5.4(Instant)明显优于混元 3 的,比如上面那段出现的技术名词 Ormachy,在原版英文字幕文件中就是前后不一致的,同时存在几个不同的错误拼写,但是 GPT-5.4(Instant)可以自动把出现的不同写法全部调整成正确写法 Ormachy,但混元 3 只是忠实地把错词翻译过来了。
然后,我们给出了一个 调研“AI 一人公司趋势”并输出一份报告的任务,要求其必须调用浏览器(搜索)、文档整理、数据总结。
提示词如下:
你现在是一个具备真实工作能力的研究型 Agent。你的目标不是基于已有知识生成内容,而是通过主动调用工具,完成一次完整的“AI一人公司(One Person Company, OPC)趋势调研”,并交付一份结构清晰、信息可靠的研究报告。
任务目标:
调研“AI一人公司趋势”,并输出一份可直接阅读和使用的分析报告。
强制要求(必须遵守):
1. 必须使用浏览器进行真实搜索,获取最新信息(不可仅依赖已有知识)
2. 必须对多来源信息进行整理、对比与归纳
3. 必须对关键数据进行提取和总结(如比例变化、融资情况、案例数据等)
4. 最终输出一份结构化报告,而不是零散内容
执行流程(必须按顺序执行):
第一步:调研规划
- 明确本次调研的核心问题(例如:OPC是否趋势性增长、哪些人群受益、商业模式是什么等)
- 给出搜索关键词(中英文)
- 说明你将重点查找的信息类型(数据、案例、观点、公司实践等)
第二步:信息搜索(必须调用浏览器)
- 至少进行3-5轮不同角度的搜索
- 覆盖:行业数据、真实案例、公司/平台观点、投资/融资信息
- 每次搜索需说明:为什么搜、搜到了什么、是否可信
第三步:信息筛选与整理
- 去除重复或低质量信息
- 标记关键信息来源(例如报告、公司、媒体、个人观点)
- 将信息按主题归类(如:趋势、案例、商业模式、风险等)
第四步:数据与结论提取
- 提取关键数据(如占比变化、增长趋势、变现情况)
- 总结至少3-5个“可被验证的事实”
- 总结至少3个“趋势判断”
第五步:结构化报告输出
最终报告必须包含以下结构:
1. 背景与现象(AI一人公司为何出现)
2. 核心趋势(是否在增长、增长逻辑是什么)
3. 典型案例(真实个人/公司案例)
4. 商业模式与赚钱路径
5. 谁在受益(人群分层)
6. 风险与限制(如平台依赖、可复制性问题)
7. 未来判断(短期红利 vs 长期结构)
执行要求:
- 每一步都要说明“你在做什么”和“为什么这么做”
- 不允许跳过搜索直接总结
- 不允许只给观点,必须有事实或案例支撑
- 如果信息存在冲突,需要指出并分析原因
- 优先使用最近1-2年的信息
输出要求:
- 语言清晰、逻辑连贯
- 信息密度高,但不要堆砌
- 可以直接作为一篇行业分析报告阅读
现在开始执行:先输出第一步【调研规划】,不要跳步。



读者可以复制链接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy
整体给人感觉:这是非常全面的一份报告,只是细节展开不够,但对于想要大概了解“一人公司”情况的读者来说是可以快速掌握相关信息的。
在准确性方面,我们随机抽检了两组数据,第一组数据:“2023-2024 年澳大利亚无雇员企业同比增长 4.9%,新增 78144 家”,在搜索后可以找到出处,数值引用也正确。

再随机抽检这个案例:“动画领域创业者可单人统筹 42 分钟动画,28 天完成传统 10 人团队的工作量”,结果也正确。

顺便让它把 md 格式转成 PDF,它也顺利完成了任务。
可见,在研究报告这块,Hy3 preview 信息搜集处理的准确度是不错的。不过,现在深度报告这块的竞争力或在数据上,近期 Kimi、千问等都添加了专业数据库来生成报告。
接下来再给它一个任务:从零做一个“AI 新闻聚合网站”。在调用了 31 个工具、产生了 63 条过程消息后,Hy3 preview 成功生成了一个 AI 新闻聚合平台,如下图:

这是 Hy3 preview 自主选择的技术栈,还附了相关解释,告诉用户为什么这样选。在将逻辑和开发步骤讲清楚后,模型才开始正式执行。

期间,我们上传了一个 Excel 表格,让它读取各 sheet 里的新闻源,它成功读取并给出了一些意见,比如全是英文网站可能错过国内企业消息(然后自己在抓取时候加入了国内网站)。不过,读取也出现了一些问题,比如一个子 sheet 里的 31 条新闻源,其显示只读取了 3 个,数量差有些大,也导致新闻抓取过度依赖某一单一网站。
这次测试中,Hy3 preview 也展现了自己的 debug 能力。在任务完成后,打开网页出现了下面问题,告诉它后,它开始检查问题,最后顺利修复。

首先是抓取时间问题,点击一个显示“4 分钟前”的新闻,打开原链接后新闻显示的时间是 2025 年 1 月 31 日。

当然生成的聚合网站上也有最新的消息(如下),但在明确要求“最新新闻优先展示”的情况下,整个排序依然错乱。

时间排序问题它自己在测试网页中也发现了,但最后呈现还是出现了问题。这种无法准确修改后呈现的问题,还包括在要求去掉某一个新闻源后其依然引用等。

另外,打开阅读的整个视觉效果也不太好,这可能也是为什么在任务完成后,提示下一步可以做视觉优化的原因吧。
整体下来,现在生成网页的效果已经比去年好了很多,但要符合用户者心意、做到产品级别性能,比如实时刷新、话题精准、抓取新闻量更大等,还需要更多投入精力。但可以预想,企业官网等要求不高的场景完全可以用,完成程度会不错。
接下来的任务是通过调用 terminal 技能、使用 uv 管理虚拟环境,在本地编写 Python 脚本求解 Lorentz 力方程,并产出 3D 轨迹图。这是官方给的一个案例,我们进行了复现。最终,在经过 22 个工具调用、产生 55 条过程消息后,产出下图:

这次,我们附上模型的思考过程:
可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理实验处理上,知道带电粒子轨道问题需先处理尺度分离、可视化之前要检查能量守恒和周期,理解视觉好看不等于物理上可信。不过,目前 WorkBuddy 还未像爱马仕 Hermes 那样会自动沉淀未来可复用的 skill。
接下来我们再来测测它加载和执行 skill 的能力如何。我们把已经写好的一个文案 Skill,丢给它学习,并通过这篇文章的内容让它写一下传播文案,看看效果如何,过程如下:


完整思考过程如下,Hy3 Preview 先快速总结了文章的内容和我的诉求,然后抓取文章的核心信息和关键字(甚至包含了传播转化动作与品牌露出),并按照 Skill 的规范去生成文案。生成之后先检查字数、符号使用规范等,最后有重新对照了一下原文内容去确保生成的文案信息准确,验证之后给我交付了结果。

最终生成的传播文案如下:

结果来看,关键信息基本都抓取到了,也符合 Skill 预设的风格和字数要求,唯一欠缺的可能是不同风格版本文案内容的多样性不太够。但是如果每类文案只选取 1 条使用,倒也没啥毛病。尤其是给完文案后它还自查并展示了标签使用规则、字数以及版本风格,这一点好评。
整体体验下来,我们能感觉到,当前 Hy3 Preview 在任务执行过程中,对于用户需求的实施非常精准且务实,不会存在超出需求之外的“瞎编”,并且遇到问题会主动寻找其他解决方法,自动调用各种工具,直到解决问题。
好处是当我们把明确且具体的需求发送给它后,大概率能获得一个不太出错的答案,一致性也相对更好;坏处是如果当你给到一些抽象、需要发散和创意的需求时,可能会获得一份让人觉得有点“一板一眼”的内容,缺乏多样性和想象力,也不太能进入灵感碰撞的“心流时刻”,但这或许也是 Hy3 下一步会重点增强的地方,毕竟它现在说到底还只是个语言模型,而非多模态。当你有一个需要严谨执行的任务时,你能够第一时间想到 Hy3,这本身也是一种认可。

*InfoQ 策划编辑 Potatooo 对本文亦有贡献。
世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?
AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。
诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。

今日荐文
xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签!
“守成者”库克卸任CEO:除了离开,他再没有什么能留给苹果了
Claude封号潮失控!300 万用户企业一夜断供,无理由、无回应,受害者被迫抱团反抗
靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩?

