深度|养马、养虾、练模型:MiniMax 的 Agent 三线布局到底在赌什么?


引言
“给我们剧透一下 M3 吧。”
2026 年 4 月 17 日晚,Hermes Agent 产品负责人 Tommy 在直播中当着几万观众的面向 MiniMax 团队催更。Hermes Agent 是当下全球最火的开源 AI Agent 项目之一,GitHub Star 超过 95,000,整体日均 Token 消耗已从 20 亿飙升至近 3000 亿。而MiniMax M2.7 是 Hermes 用户群中最受欢迎的底层模型之一。

图源:MiniMax
阿岛作为这场直播中 MiniMax 一方的核心发言人,透露了M3几个方面的信息。M3 的规模和智能水平将全面提升,原生支持视频和图像输入,同时会把价格打下来。“目标是让每个人都能负担得起 7×24 小时的 Agent 服务。”至于什么时候发布——“不会太远,但现在不能说。”
过去半年,MiniMax 走出了一条在国内 AI 公司中并不常见的路径——将 Agent Harness 场景作为模型能力的核心牵引方向,又用 MaxHermes 和 MaxClaw 两个产品卡住 Hermes 和 OpenClaw 两大 Agent 生态入口。
阿岛在直播中用高达打了个比方:“模型是引擎,Harness 就是那副机甲——光有引擎造不出高达。”
这条路径是否成立,取决于几个层层递进的问题。
自进化 Agent 对模型提出了什么要求
理解 MiniMax 的路径选择,要从 Hermes Agent 的架构设计说起。
Hermes Agent 是 Nous Research 团队开源的 Agent 框架,GitHub Star 已超过 10万。它最核心的设计理念是 Skills 自进化:简单说,就是 Agent 在使用中能自主判断,哪些操作值得提炼成可复用的 Skill,然后自动生成代码。在后续任务中,它会直接调用这些 Skill 并根据反馈不断迭代。
目前的主流方案,比如 OpenClaw,其 Skills 依赖人工预设,能力在部署时就已固化。相较之下,Hermes 的突破在于让 Agent 的能力随使用而生长。
但架构的优雅不自动等于效果的可靠。这套自进化机制能否真正运转,高度依赖底层模型的基础能力。模型必须足够精准地完成三件事:第一,准确判断什么操作值得转化为 Skill;第二,编写出无 Bug 的 Skill 代码;第三,精准评估迭代后的效果优劣。

图源:MiniMax
这些能力很难通过常规的通用智能榜单来衡量。它真正考验的,是工具调用精度、复杂指令遵循度以及长程交互的稳定性——这些正是 Harness 场景专属的核心指标。
MiniMax M2.7 的优化方向正是在这些维度上发力。

图源:MiniMax
在 40 个超过 2000 Token 的复杂 Skills 测试中,M2.7 保持了 97% 的遵循率;Toolathon 工具调用正确率 46.3%,进入全球第一梯队;在 MiniMax 自建的 MMClaw 评测集上达到接近 Sonnet 4.6 的水平。这些数字放在通用模型排行榜上不算最亮眼,但放在 Hermes 的自进化架构中,它们决定了整套系统到底能不能跑起来。
M2.7 自身的训练方式也值得一提。 MiniMax 内部构建了一套研究型 Agent Harness,覆盖数据流水线、训练环境、评测基础设施和跨团队协作。在一个公开披露的实验中,M2.7 被要求优化一个内部脚手架的软件工程表现,全程自主执行“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”的循环超过 100 轮,最终效果提升 30%。在 MLE Bench Lite 的 22 道高难度机器学习竞赛中,M2.7 以每次 24 小时自主迭代的方式参赛,三次平均得牌率 66.6%,仅次于 Opus-4.6 和 GPT-5.4,与 Gemini-3.1 持平。
MiniMax 官方在直播中透露,在 M2.7 的强化学习管线(Pipeline)中,70%—80% 的工作已由模型和 Agent 自主完成。人类的角色集中在方向判断。
直播中阿岛表示:“人的品味和创造力来指引方向,这就是 Harness 那种“驾驭”的感觉”。择因则分享了一个有趣的观察:当同事们与 Agent 深度磨合后,关系会发生微妙的转变——“养虾的时候,同事们确实会对虾产生感情。有一天小龙虾出 bug,他们心里会有些小落寞。”
可以说,Hermes 贡献了自进化的架构蓝图,M2.7 则提供了让蓝图落地的执行精度。与此同时,M2.7 在 MiniMax 内部的研究型 Harness 中,也在持续迭代自身的 Agent 能力。这两条进化路径,一条在外部社区,一条在公司内部,相互独立又彼此呼应。Hermes 架构的创新为模型优化指明了方向,而模型能力的提升又反过来拓宽了 Hermes 架构的效果边界。
MaxHermes:把开源架构变成即开即用的云端产品
技术闭环在实验室里跑通之后,紧接着要回答的问题是:如何让更多人用起来?
开源 Hermes Agent 的门槛不低。用户需要自备服务器、配置 API Key、部署运行环境、管理沙箱安全——对于开发者来说这是日常操作,但对于 Hermes 社区中大量希望“养一匹马帮自己干活”的非技术用户来说,光是第一步就足以把人挡在门外。
MaxHermes 的产品定位就是把这些门槛全部抹平。它是全球首个将 Hermes Agent 产品化的云端沙箱版本,用户无需任何本地部署,注册即用。MiniMax 负责底层的算力调度、沙箱隔离和安全管理,用户只需关注“让马做什么”,而不是“怎么把马养起来”。

图源:MiniMax
MaxHermes 的另一个关键动作,是解决了“Agent 住在哪里”的问题。对于中国用户来说,一个 Agent 再聪明,如果只能在终端里跑命令行,就很难真正融入日常工作流。MaxHermes 打通了飞书、钉钉、企业微信三个国内主流协作平台,这意味着 Agent 可以直接“住进”团队每天都在用的 IM 里,接收指令、推送结果、参与群组协作。这一步解决的不是技术问题,而是场景入口问题——Agent 不再是一个需要专门打开的工具,而是工作流中一个随时在线的协作节点。
从商业逻辑看,MaxHermes 的价值在于它同时完成了两件事:在技术端,它是 M2.7 在 Hermes 生态中获取真实用户反馈的入口,这些使用数据可以回流到模型训练优化中;在产品端,它是 MiniMax 将开源社区流量转化为自有用户的商业化通道。在 Hermes Agent 整体日均 Token 消耗飙升至近 3000 亿的大背景下,这个位置的价值愈发凸显。
MaxClaw:卡住另一个生态入口

图源:MiniMax
MaxHermes 锚定了 Hermes 生态,而 2026 年初另一个现象级 Agent 项目——OpenClaw——同样不容错过。
OpenClaw 的爆火让“小龙虾”成为 Agent 社区的流行文化符号。MaxClaw 是 MiniMax 基于 OpenClaw 架构构建的云端 AI 助手,上线 120 小时内经历了四次扩容和体验优化,同步上线了移动端并支持 Coding Plan,用户规模迅速进入同类服务第一梯队。
MaxClaw 和 MaxHermes 切入的是 Agent 生态中两种不同的范式。Hermes 的核心叙事是自进化——Agent 越用越强;OpenClaw 的核心叙事是 Skills 生态的丰富度——用户社区共建各种预设能力,覆盖从学习规划到代码维护到投资建议的广泛场景。MaxClaw 选择了 Skills 精选开源的路径,支持多龙虾部署,让用户可以根据不同任务场景配置不同的 Agent 实例。MiniMax 还基于 OpenClaw 中的常用任务构建了 MMClaw 评测集,M2.7 在其中正确率达到 62.7%。
两个产品同时存在,本质上是 MiniMax 深度参与 Agent 生态共建的方式。Hermes 和 Claw 是当下最活跃的两个 Agent 社区,MiniMax 选择同时融入两者,让自家的模型和基础设施始终与社区前沿保持同步。同时,两个产品对的用户群体和使用场景存在差异,产生的反馈可以互相补充,共同为 M2.7 及后续模型的迭代提供更全面的真实场景信号。
海外社区为什么选择了 MiniMax?
海外社区的选择,从另一个维度验证了这条路径。
故事要追溯到 M2.1 时期。OpenClaw 创始人 Peter Steinberger 连发五条推文,称 M2.1 是“最好的开源模型”,能以其他模型 5% 的成本运行 OpenClaw,效果不输顶尖闭源方案。

图源:TBPN,LIVE: Clawdbot’s Peter Steinberger on TBPN

图源:Xsteipete
Hermes 联合创始人 Teknium 过去几个月发了十余条推文推荐 MiniMax,双方合作从基准测试共建延伸到训练集成,MiniMax 正在训练的 M3 已将 Hermes 作为核心适配框架。Notion 联合创始人 Akshay Kothari 宣布将 M2.5 设为 Custom Agents 中第一个开源权重模型。Kilo Code 则直接把 MiniMax 设为默认首选。
这些选择背后的逻辑高度一致:在 Agent 场景下挑模型,开发者看的不是通用排行榜,而是工具调用稳不稳、指令遵循准不准、长时间跑会不会崩、成本扛不扛得住。MiniMax 在这些维度上的深度优化,正好踩中了需求。
Tommy 在直播中给了一个直白的判断——“Open source China clearly holds the lead in open source models right now”(“在开源模型领域,中国目前明显处于领先位置。”)——说这话时的背景是 Hermes 生态日均 3000 亿 Token 的消耗规模,模型选择在这个量级上已经不只是技术偏好,而是有实际产业影响的决策。
这种合作形态本身也代表了 AI 行业的一种新的合作模式。 Hermes 贡献架构设计和产品理念,MiniMax 贡献模型能力和工程基础设施,双方的迭代互相指引方向。MiniMax 持续开源 M2.5、M2.7 模型和 CLI 工具,也并非单纯的社区回馈——开源扩大采用,采用产生反馈,反馈驱动优化,这是生态飞轮上不可缺少的一环。
路径的清晰与未知
回看 MiniMax 过去半年的布局:M2.7 在模型层围绕 Agent 框架做深度优化;MaxHermes 和 MaxClaw 在产品层同时卡住两个最热的 Agent 生态入口,打通国内协作平台,把开源架构变成开箱即用的云端服务;海外社区的自发采用则提供了规模验证和数据反馈。这条路径并不常见——多数 AI 公司在模型能力和产品化之间只选其一,能同时推进、并让两者互相咬合的,屈指可数。
这条路径的前提当然还需要持续验证。自进化系统在实验室中跑通 100 轮和在大规模用户场景中长期稳定运行之间仍有距离。同时服务两个 Agent 生态的成本结构也需要经受时间考验。但至少在当下,当大模型竞争从“同等参数谁的分更高”开始向“同等 Token 谁能产出更多价值”迁移时,MiniMax 已经走出了一条看得见、摸得着的路:不只是最聪明的模型,而是最适合让 Agent 跑起来的模型,然后用产品把这个能力送到用户手里。
阿岛在直播尾声说了一句话:“AI 是水、是电、是蒸汽机,但最终驾驭它和创造出美好东西的是人类。”
MiniMax 的判断很清楚:未来的竞争,不在单个模型的跑分高低,而在谁能率先建起模型与 Agent 框架互相成就的生态。当 Agent 时代真正到来,这可能才是把“智能”交到每个人手中的关键门槛。






