深度｜养马、养虾、练模型：MiniMax 的 Agent 三线布局到底在赌什么？

发布时间：2026-04-20来源：Z Potentials

引言

“给我们剧透一下 M3 吧。”

2026 年 4 月 17 日晚，Hermes Agent 产品负责人 Tommy 在直播中当着几万观众的面向 MiniMax 团队催更。Hermes Agent 是当下全球最火的开源 AI Agent 项目之一，GitHub Star 超过 95,000，整体日均 Token 消耗已从 20 亿飙升至近 3000 亿。而MiniMax M2.7 是 Hermes 用户群中最受欢迎的底层模型之一。

图源：MiniMax

阿岛作为这场直播中 MiniMax 一方的核心发言人，透露了M3几个方面的信息。M3 的规模和智能水平将全面提升，原生支持视频和图像输入，同时会把价格打下来。“目标是让每个人都能负担得起 7×24 小时的 Agent 服务。”至于什么时候发布——“不会太远，但现在不能说。”

过去半年，MiniMax 走出了一条在国内 AI 公司中并不常见的路径——将 Agent Harness 场景作为模型能力的核心牵引方向，又用 MaxHermes 和 MaxClaw 两个产品卡住 Hermes 和 OpenClaw 两大 Agent 生态入口。

阿岛在直播中用高达打了个比方：“模型是引擎，Harness 就是那副机甲——光有引擎造不出高达。”

这条路径是否成立，取决于几个层层递进的问题。

自进化 Agent 对模型提出了什么要求

理解 MiniMax 的路径选择，要从 Hermes Agent 的架构设计说起。

Hermes Agent 是 Nous Research 团队开源的 Agent 框架，GitHub Star 已超过 10万。它最核心的设计理念是 Skills 自进化：简单说，就是 Agent 在使用中能自主判断，哪些操作值得提炼成可复用的 Skill，然后自动生成代码。在后续任务中，它会直接调用这些 Skill 并根据反馈不断迭代。

目前的主流方案，比如 OpenClaw，其 Skills 依赖人工预设，能力在部署时就已固化。相较之下，Hermes 的突破在于让 Agent 的能力随使用而生长。

但架构的优雅不自动等于效果的可靠。这套自进化机制能否真正运转，高度依赖底层模型的基础能力。模型必须足够精准地完成三件事：第一，准确判断什么操作值得转化为 Skill；第二，编写出无 Bug 的 Skill 代码；第三，精准评估迭代后的效果优劣。

图源：MiniMax

这些能力很难通过常规的通用智能榜单来衡量。它真正考验的，是工具调用精度、复杂指令遵循度以及长程交互的稳定性——这些正是 Harness 场景专属的核心指标。

MiniMax M2.7 的优化方向正是在这些维度上发力。

图源：MiniMax

在 40 个超过 2000 Token 的复杂 Skills 测试中，M2.7 保持了 97% 的遵循率；Toolathon 工具调用正确率 46.3%，进入全球第一梯队；在 MiniMax 自建的 MMClaw 评测集上达到接近 Sonnet 4.6 的水平。这些数字放在通用模型排行榜上不算最亮眼，但放在 Hermes 的自进化架构中，它们决定了整套系统到底能不能跑起来。

M2.7 自身的训练方式也值得一提。 MiniMax 内部构建了一套研究型 Agent Harness，覆盖数据流水线、训练环境、评测基础设施和跨团队协作。在一个公开披露的实验中，M2.7 被要求优化一个内部脚手架的软件工程表现，全程自主执行“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”的循环超过 100 轮，最终效果提升 30%。在 MLE Bench Lite 的 22 道高难度机器学习竞赛中，M2.7 以每次 24 小时自主迭代的方式参赛，三次平均得牌率 66.6%，仅次于 Opus-4.6 和 GPT-5.4，与 Gemini-3.1 持平。

MiniMax 官方在直播中透露，在 M2.7 的强化学习管线（Pipeline）中，70%—80% 的工作已由模型和 Agent 自主完成。人类的角色集中在方向判断。

直播中阿岛表示：“人的品味和创造力来指引方向，这就是 Harness 那种“驾驭”的感觉”。择因则分享了一个有趣的观察：当同事们与 Agent 深度磨合后，关系会发生微妙的转变——“养虾的时候，同事们确实会对虾产生感情。有一天小龙虾出 bug，他们心里会有些小落寞。”

可以说，Hermes 贡献了自进化的架构蓝图，M2.7 则提供了让蓝图落地的执行精度。与此同时，M2.7 在 MiniMax 内部的研究型 Harness 中，也在持续迭代自身的 Agent 能力。这两条进化路径，一条在外部社区，一条在公司内部，相互独立又彼此呼应。Hermes 架构的创新为模型优化指明了方向，而模型能力的提升又反过来拓宽了 Hermes 架构的效果边界。

MaxHermes：把开源架构变成即开即用的云端产品

技术闭环在实验室里跑通之后，紧接着要回答的问题是：如何让更多人用起来？

开源 Hermes Agent 的门槛不低。用户需要自备服务器、配置 API Key、部署运行环境、管理沙箱安全——对于开发者来说这是日常操作，但对于 Hermes 社区中大量希望“养一匹马帮自己干活”的非技术用户来说，光是第一步就足以把人挡在门外。

MaxHermes 的产品定位就是把这些门槛全部抹平。它是全球首个将 Hermes Agent 产品化的云端沙箱版本，用户无需任何本地部署，注册即用。MiniMax 负责底层的算力调度、沙箱隔离和安全管理，用户只需关注“让马做什么”，而不是“怎么把马养起来”。

图源：MiniMax

MaxHermes 的另一个关键动作，是解决了“Agent 住在哪里”的问题。对于中国用户来说，一个 Agent 再聪明，如果只能在终端里跑命令行，就很难真正融入日常工作流。MaxHermes 打通了飞书、钉钉、企业微信三个国内主流协作平台，这意味着 Agent 可以直接“住进”团队每天都在用的 IM 里，接收指令、推送结果、参与群组协作。这一步解决的不是技术问题，而是场景入口问题——Agent 不再是一个需要专门打开的工具，而是工作流中一个随时在线的协作节点。

从商业逻辑看，MaxHermes 的价值在于它同时完成了两件事：在技术端，它是 M2.7 在 Hermes 生态中获取真实用户反馈的入口，这些使用数据可以回流到模型训练优化中；在产品端，它是 MiniMax 将开源社区流量转化为自有用户的商业化通道。在 Hermes Agent 整体日均 Token 消耗飙升至近 3000 亿的大背景下，这个位置的价值愈发凸显。

MaxClaw：卡住另一个生态入口

图源：MiniMax

MaxHermes 锚定了 Hermes 生态，而 2026 年初另一个现象级 Agent 项目——OpenClaw——同样不容错过。

OpenClaw 的爆火让“小龙虾”成为 Agent 社区的流行文化符号。MaxClaw 是 MiniMax 基于 OpenClaw 架构构建的云端 AI 助手，上线 120 小时内经历了四次扩容和体验优化，同步上线了移动端并支持 Coding Plan，用户规模迅速进入同类服务第一梯队。

MaxClaw 和 MaxHermes 切入的是 Agent 生态中两种不同的范式。Hermes 的核心叙事是自进化——Agent 越用越强；OpenClaw 的核心叙事是 Skills 生态的丰富度——用户社区共建各种预设能力，覆盖从学习规划到代码维护到投资建议的广泛场景。MaxClaw 选择了 Skills 精选开源的路径，支持多龙虾部署，让用户可以根据不同任务场景配置不同的 Agent 实例。MiniMax 还基于 OpenClaw 中的常用任务构建了 MMClaw 评测集，M2.7 在其中正确率达到 62.7%。

两个产品同时存在，本质上是 MiniMax 深度参与 Agent 生态共建的方式。Hermes 和 Claw 是当下最活跃的两个 Agent 社区，MiniMax 选择同时融入两者，让自家的模型和基础设施始终与社区前沿保持同步。同时，两个产品对的用户群体和使用场景存在差异，产生的反馈可以互相补充，共同为 M2.7 及后续模型的迭代提供更全面的真实场景信号。

海外社区为什么选择了 MiniMax？

海外社区的选择，从另一个维度验证了这条路径。

故事要追溯到 M2.1 时期。OpenClaw 创始人 Peter Steinberger 连发五条推文，称 M2.1 是“最好的开源模型”，能以其他模型 5% 的成本运行 OpenClaw，效果不输顶尖闭源方案。

图源：TBPN，LIVE: Clawdbot’s Peter Steinberger on TBPN

图源：Xsteipete

Hermes 联合创始人 Teknium 过去几个月发了十余条推文推荐 MiniMax，双方合作从基准测试共建延伸到训练集成，MiniMax 正在训练的 M3 已将 Hermes 作为核心适配框架。Notion 联合创始人 Akshay Kothari 宣布将 M2.5 设为 Custom Agents 中第一个开源权重模型。Kilo Code 则直接把 MiniMax 设为默认首选。

这些选择背后的逻辑高度一致：在 Agent 场景下挑模型，开发者看的不是通用排行榜，而是工具调用稳不稳、指令遵循准不准、长时间跑会不会崩、成本扛不扛得住。MiniMax 在这些维度上的深度优化，正好踩中了需求。

Tommy 在直播中给了一个直白的判断——“Open source China clearly holds the lead in open source models right now”（“在开源模型领域，中国目前明显处于领先位置。”）——说这话时的背景是 Hermes 生态日均 3000 亿 Token 的消耗规模，模型选择在这个量级上已经不只是技术偏好，而是有实际产业影响的决策。

这种合作形态本身也代表了 AI 行业的一种新的合作模式。 Hermes 贡献架构设计和产品理念，MiniMax 贡献模型能力和工程基础设施，双方的迭代互相指引方向。MiniMax 持续开源 M2.5、M2.7 模型和 CLI 工具，也并非单纯的社区回馈——开源扩大采用，采用产生反馈，反馈驱动优化，这是生态飞轮上不可缺少的一环。

路径的清晰与未知

回看 MiniMax 过去半年的布局：M2.7 在模型层围绕 Agent 框架做深度优化；MaxHermes 和 MaxClaw 在产品层同时卡住两个最热的 Agent 生态入口，打通国内协作平台，把开源架构变成开箱即用的云端服务；海外社区的自发采用则提供了规模验证和数据反馈。这条路径并不常见——多数 AI 公司在模型能力和产品化之间只选其一，能同时推进、并让两者互相咬合的，屈指可数。

这条路径的前提当然还需要持续验证。自进化系统在实验室中跑通 100 轮和在大规模用户场景中长期稳定运行之间仍有距离。同时服务两个 Agent 生态的成本结构也需要经受时间考验。但至少在当下，当大模型竞争从“同等参数谁的分更高”开始向“同等 Token 谁能产出更多价值”迁移时，MiniMax 已经走出了一条看得见、摸得着的路：不只是最聪明的模型，而是最适合让 Agent 跑起来的模型，然后用产品把这个能力送到用户手里。

阿岛在直播尾声说了一句话：“AI 是水、是电、是蒸汽机，但最终驾驭它和创造出美好东西的是人类。”

MiniMax 的判断很清楚：未来的竞争，不在单个模型的跑分高低，而在谁能率先建起模型与 Agent 框架互相成就的生态。当 Agent 时代真正到来，这可能才是把“智能”交到每个人手中的关键门槛。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。