小米 MiMo-V2 三张牌：1T 参数旗舰、全模态 Omni、情感 TTS，分别在解决什么

发布时间：2026-03-19来源：硅星GenAI

上周，OpenRouter 上悄悄出现了两个没有任何介绍的匿名模型：Hunter Alpha 和 Healer Alpha。没有宣发，没有官方认领，只有调用量在持续攀升——多天冲上日榜前列，开发者社区开始炸锅。

有人猜这是 DeepSeek V4，参数规格高度吻合，连 OpenClaw 创始人 Peter Steinberger 也忍不住在 X 上公开发帖打听身份。

3 月 19 日凌晨，谜底揭晓：Hunter Alpha 是 MiMo-V2-Pro 的早期测试版，Healer Alpha 是 MiMo-V2-Omni 的早期测试版。两个模型的主人，是小米。

当天，小米 MiMo 官方同步正式发布三款新模型：MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能会觉得这又是一轮常规迭代；把三者放在一起看，小米这次真正想讲的是"我已经开始搭一整套 Agent 能力底座"。官方给 Pro 的定位是旗舰基座模型，给 Omni 的定位是全模态 Agent 模型，给 TTS 的定位是给 Agent 补上"声音、情绪和表达力"。三个模型覆盖了从"大脑"到"感知与执行"再到"输出层"的完整链路。

MiMo-V2-Pro 负责想，MiMo-V2-Omni 负责看、听、做，MiMo-V2-TTS 负责说。 这波发布最值得看的，也正是这条清晰的路线：小米在把 AI 从"对话框里的回答机器"，往"能调用工具、理解界面、处理真实任务、自然表达"的系统层智能体方向推进。

一、MiMo-V2-Pro：对标 Claude 去的 Agent 旗舰，偏偏只卖五分之一的价

先看 MiMo-V2-Pro。按照官方说法，这是面向真实世界 agentic workload 的旗舰基座模型，目标是去完成任务。模型总参数超过 1T，激活参数 42B，支持 1M token 上下文；架构上延续上一代 Hybrid Attention，混合比例从 5:1 提升至 7:1，同时保留轻量级 MTP 层以提升生成效率。官方强调的关键词很明确：complex workflows、production engineering tasks、tool-call stability、multi-step reasoning。

跑分上，MiMo-V2-Pro 是这次三款里官方公开数据最完整的。小米在官方页直接标注：按 Artificial Analysis Intelligence Index，MiMo-V2-Pro 全球第 8、中文大模型第 2。

Agent 相关 benchmark 上，它在 PinchBench 拿到 84.0，在 ClawEval 拿到 61.5，两项均为全球第 3，官方明确标注"接近 Claude Opus 4.6"。对照数据：PinchBench 上 Claude Sonnet 4.6 为 86.9、Claude Opus 4.6 为 86.3、Gemini 3 Pro 为 70.7；ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均为 66.3，Gemini 3 Pro 为 51.9，GPT-5.2 为 50.0。这两个评测考的是工具调用、多步规划、复杂任务链上的稳定性——Agent 场景里最核心也最难做的部分。MiMo-V2-Pro 在这个维度上，已经和 Claude Opus 4.6 基本站在同一梯队。

验证方式上，小米没有只放几张实验室对比图。Hunter Alpha 在 OpenRouter 上跑了一周盲测——总调用量超过 1T tokens，多天登顶日榜。官方展示的调用来源几乎全是 coding/agent 工具，尤以 OpenClaw、Kilo Code、Roo Code 为主。开发者对它的感知，从一开始就落在"能干活"上。

案例上，官方给了两个方向。一个是前端开发：在 OpenClaw 里，MiMo-V2-Pro 可以根据一条 prompt 直接生成完整网页，官方展示的例子是一个 90 年代印刷杂志风格的网页，版式、字体、噪点和翻页感这些细节都有覆盖。

用同样的提示词在 MiMo Claw 实测了一下，生成的网页有目录交互、完整页面元素、整体排版也算得上美观，图片渲染稍有瑕疵，但完成度已经相当不错。

不到三分钟，一次性生成的版本，无抽卡

另一个官方案例更直接：让它做一个 3D 塔防游戏，要求使用 Three.js 或 Babylon.js，实现 3D 渲染、关卡模式、敌人波次、升级路径、动态背景和完整控制逻辑。官方想传达的很清楚——这个模型瞄准的是端到端工程交付，代码补全只是其中最基础的一层。

价格是 MiMo-V2-Pro 另一个值得单独说的点。官方页把 API 价格和 Claude 4.6 系列并排列出：256K 以内，输入/输出分别为 $1/$3 每百万 tokens；256K 到 1M 为 $2/$6。 Claude Sonnet 4.6 是 $3/$15，Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯队，价格约为五分之一——这个价差对大规模调用的 agent 框架来说，是实质性的成本差异，也是小米最直接的市场切入点。

二、MiMo-V2-Omni：感知与行动原生绑定，最有想象空间的那款

如果说 Pro 是"大脑"，MiMo-V2-Omni 才是这次最有未来感的东西。官方对它的定义是 omni foundation model：把图像、视频、音频编码器直接融合进同一个共享 backbone，形成一条统一感知流。更关键的是训练目标——这个模型从一开始，就同时学三件事：场景是什么、接下来会发生什么、现在该做什么。感知和行动在架构层就是绑定的。

官方公开的 benchmark 数据，感知侧六个分数：MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。从对照表可以直接读出：MMAU-Pro 69.4 高于 Gemini 3 Pro 的 67.0；CharXiv RQ 80.1 高于 Claude Opus 4.6 的 77.4；FutureOmni 66.7 高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方总结：音频理解整体超过 Gemini 3 Pro，图像理解超过 Claude Opus 4.6，视频理解支持原生音视频联合输入，并具备 future reasoning 能力。

行动侧数据更值得关注：MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中 MM-BrowserComp 52.0 明显高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4；PinchBench 85.6 高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0，非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 测的是模型在真实浏览器环境里完成任务的能力，这个分数比两个主要对手高出 5-15 个百分点，是执行维度上相当显著的差距。

代码与任务能力上还有 SWE-Bench Verified 74.8、GDPVal 1410。

官方给了三个案例，每个都指向一类具体场景。

第一个是自动驾驶视觉大脑：给它一段海边小镇的行车记录仪视频，让它实时识别潜在风险。模型的输出是"并线风险、盲区、行人横穿、车道收窄、街边双排停车带来的侧向风险"——已经接近驾驶决策层的信息，目标检测只是基础。

第二个是跨平台购物 Agent：任务是扮演一个喜欢旅行摄影的学生，在小红书上搜三款小米 17 的选购建议，整理推荐，再去京东下单，并尽量和客服谈到更低价格。整个流程里，MiMo-V2-Omni 在 OpenClaw 配合下自主浏览帖子、比较卖家、与客服自然语言谈价、加购并走到结算，期间还处理了非标准 DOM、多标签页上下文管理、平台反自动化打断后的恢复，全程没有人工干预。任务链结构——跨平台、跨模态、遇到干扰后自主恢复——已经非常接近真实电商和办公场景里 Agent 工作流的复杂度。

第三个案例更极端：从零做一个 15 秒介绍视频，然后上传到 TikTok。模型先自己设计 4 个镜头，再合成低频 bass、电子音、转场 whoosh 和 glitch 细节音效；渲染中碰到中文字体报错，自己诊断并修复；打开 TikTok 上传页后，发现描述输入框不是标准文本元素，自行分析 DOM、找到正确交互方式，填完文案、发布、点赞、评论，最后确认视频通过审核公开上线。这个案例想说明的是：Omni 已经开始展现出闭环自主完成任务的能力——从内容生成到平台发布，中间出了问题，自己解决。

三、MiMo-V2-TTS：给 Agent 装上情感，被低估最久的那层体验

第三个模型 MiMo-V2-TTS，表面看起来最不"炸"，但可能是最容易直接走进产品的那一个。行业这两年几乎所有讨论都集中在推理能力、工具调用、代码质量上，但真正到产品里，用户接触到的是最后那层——它怎么说话，有没有情绪，是否自然，是不是像一个真实存在的智能体。这层体验长期被当成锦上添花，但在终端产品里，它直接影响用户粘性。MiMo-V2-TTS 要做的，就是把这层认真填上。官方的说法很直接：给 Agent 一个声音，甚至给它"灵魂"。

MiMo-V2-TTS 小米 - MiMo-V2-TTS Xiaomi

您的浏览器不支持 audio 元素。

技术上，MiMo-V2-TTS 建在小米自研的 Audio Tokenizer 和 multi-codebook joint speech-text modeling 架构上，预训练数据超过 1 亿小时语音数据，后续做了多维度强化学习。重点在三件事：多粒度风格控制、自然韵律还原、唱歌能力。它可以理解自由文本风格描述，比如"刚睡醒、略微沙哑"、"几乎是耳语式的深情表达"、"愤怒但尽量克制"，而不是只能从 happy/sad/angry/neutral 的下拉菜单里选。

更细的一层，是它可以在生成时同步输出非语言事件——咳嗽、停顿、迟疑、叹气、笑声等，强调的是这些信号在建模阶段就和上下文一并处理，而不是后期拼进去的音效。它还支持方言和角色音色，包括东北话、四川话、粤语、台湾普通话，以及孙悟空、林黛玉这类角色风格。目标是把一段文本表演出来，而不只是念出来。

最值得单独说的是唱歌。官方明确写明支持 singing voice synthesis，并表示这可能是当前首个在商业可用 API 中原生同时支持说话和唱歌的 TTS 能力。同一套架构，既能做耳语式对话，也能生成带音高和节奏的演唱，中间不用切模型、不用切模式。对内容生产、虚拟人、陪伴型 Agent、AI 主播和短视频工具来说，这是非常直接的能力补充。

需要说明的是，目前官方公开页里，MiMo-V2-TTS 没有像 Pro 和 Omni 那样给出一套完整的 benchmark 排名表，更多展示的是能力样例和产品方向。TTS 的质量本身就很难量化，最终检验只能靠真实产品里的用户体验。这个模型的核心命题只有一个：能不能把人机交互的体验往上拉一个台阶。

四、写在最后

把这三款模型放在一起看，小米在推进的目标已经超出了"能对话、会回答的大模型"范畴，落点在 Agent 时代的系统层底座。MiMo-V2-Pro 负责规划、推理、长上下文和复杂工具链；MiMo-V2-Omni 负责多模态理解、界面感知和跨环境执行；MiMo-V2-TTS 负责把这一切变成自然、可持续交互的产品体验。

有意思的是，小米这次挑的案例——自动驾驶、电商谈价、短视频生成上传、3D 游戏搭建、方言情绪语音——几乎全是小米自己生态里能直接落地的场景。

至于最终效果怎样，网址在此：

https://mimo.xiaomi.com/zh

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。