MiniMax-M3中文测评出炉：科学推理、智能体任务、幻觉控制、代码均有提升！

发布时间：2026-06-02来源：CLUE中文语言理解测评基准

模型介绍

2026年6月1日，稀宇科技正式推出原生多模态模型MiniMax-M3。该模型不仅能处理图片和视频输入，还可直接操控电脑桌面，并拥有高达100万token的超长上下文记忆能力。据官方称，在编程、智能体等专业任务中，MiniMax-M3的表现媲美GPT-5.5、Opus-4.7、Gemini-3.1-Pro等业界顶尖模型，达到领先水平。

SuperCLUE团队基于2026年5月中文大模型测评基准体系2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！对MiniMax-M3进行了测评，以下是测评结果与分析：

点击文末阅读原文或复制下方网址到浏览器即可跳转SuperCLUE官网查看完整的测评内容：

SuperCLUE官网地址：www.superclueai.com

榜单概览

一、SuperCLUE智能指数（2026年5月）

二、模型象限图（2026年5月）

三、性价比区间分布（2026年5月）

四、推理效能区间分布（2026年5月）

五、总体表现（2026年5月）

测评结果与分析

一、MiniMax-M3对比MiniMax-M2.7。

1. MiniMax-M3在科学推理、智能体(任务规划)、幻觉控制三大任务上相较于上个版本均有显著提升，其中科学推理由45.61分提升至66.67分，提升21.06分；智能体任务由60.06分提升至75.91分，提升15.85分；幻觉控制由57.41分提升至73.17分，提升15.41分。

2. MiniMax-M3在代码生成任务上有近4分的提升，由61.96分提升至65.84分。具体来看，M3在独立函数生成和Web Coding两大子任务上均有较大幅度的提升，其中独立函数生成子任务由82.19分提升至91.78分，Web Coding子任务由77.01分提升至82.41分，进入国内乃至国际前列。但在SWE软件工程这类复杂度和难度更高的任务上表现平平（存在大量超时未能成功获取答案的题目），甚至略有下降，从M2.7的26.67分下降到23.33分。