6月多模态视觉测评榜单出炉：Qwen3.7-Plus问鼎国内榜首，Gemini 3.1保持总榜领先！

发布时间：2026-07-03来源：CLUE中文语言理解测评基准

当前，多模态理解模型能力持续迭代升级，为验证主流多模态模型在中文场景下的综合性能，2026年6月SuperCLUE‑VLM 中文多模态视觉语言模型测评总榜正式发布。

本次测评使用SuperCLUE-VLM 2026年4月最新基准，整体提升题目难度，新增带有干扰陷阱、歧义迷惑的图片问答，不仅考核大模型基础图文理解能力，还针对性测试模型复杂推理、细粒度感知、逻辑溯源等高阶综合能力。本次测评以回答准确性为核心评判标准，提供客观、精准的能力评估。

本次评测覆盖了国内外13个代表性视觉语言大模型，以下为详细测评结果及分析。

「过往文章介绍」

1.【2026年4月多模态视觉语言测评文章】4月多模态视觉测评榜单出炉：Doubao-Seed-2.0问鼎榜首，国内模型大放异彩！

2.【2026年2月多模态视觉语言测评文章】2月多模态视觉测评榜单出炉：Gemini-3.1领跑，字节、千问、Kimi 强势突围！

多模态视觉语言模型测评摘要

摘要1：Gemini 3.1保持领先，Qwen3.7-Plus领衔国内追击！

Google的Gemini-3.1-Pro-Preview(75.81分)总榜第一，阿里巴巴的Qwen3.7-Plus(Thinking)(73.63分)位居国内第一，海内外头部模型比分胶着，国内模型已稳居多模态赛道第一梯队。

摘要2：国产模型性价比优势显著，海外巨头推理效能优先！

Qwen3.7-Plus(Thinking) 与商汤的 SenseNova 6.7 Flash (Alpha) 性价比突出，海外模型定价则普遍为国产模型的2至3倍。而在效能方面，Claude-Opus-4.8(high) (28.1s) 兼顾高效与高质量；国产模型普遍存在推理链路长、耗时高的问题，Doubao-Seed-2.1-Pro-260628 (205.5s) 耗时最长，在底层架构优化、推理效率提速等方面仍有较大升级迭代空间。

摘要3：简单推理趋于成熟，细粒度辨识与垂直应用仍为短板。

场景辨识、物体描述等基础能力已趋于成熟（普遍得分>80-90分）；但面对视觉重叠、场景伪装等复杂场景，以及工业应用、医疗影像等垂域，模型得分普遍低于50分，细节甄别度、专业知识适配、场景抗干扰能力也是未来重点突破、持续优化的核心方向。

# 榜单概览

# 总榜&象限图(左右滑动查看)

# 性价比&推理效能(左右滑动查看)

# 国内外TOP1模型对比(左右滑动查看)

榜单地址：www.superclueai.com

# SuperCLUE-VLM测评体系

SuperCLUE-VLM 是一个专为中文多模态视觉语言模型设计的评测基准，旨在为中文多模态大模型领域提供全面且多维的视觉语言能力评估参考。

秉持创新前沿、客观全面的原则，测评基准围绕3大核心维度、9项二级维度以及23个具体任务展开评测。

# 测评任务

基础认知能力

通用识别

常识问答：考察模型理解和回答与日常生活相关的问题（社会常识、品牌标志、人物角色、地标建筑等）的能力。
场景辨识：考察模型识别图像中场景类别（如餐厅、公园、办公室）的能力。

文本识别：考察模型识别和处理文字信息（中英日等不同语言、各类字体形式）的能力。
3D物体识别：考察模型识别三维物体类别的能力。

信息解析

数量判断：考察模型判断物体数量（整体计数、分组计数）的能力。

物体描述：考察模型对不同类别物体（动植物、电器、车辆、日常用品等）的识别能力，以及对物体特征（形状、颜色、材质等）的描述能力。
特征定位：考察模型定位物体的位置及区域的能力。

感知评价

风格识别：评价图像的构图（前景、框架等）、艺术风格或流派（印象派、赛博朋克等）。

表情识别：考察模型判断图像中人物表情（如开心、沮丧、愤怒）的能力。

视觉推理能力

学科推理

科学推理：考察模型对科学知识（如物理、化学、生物、地理等）的推理能力。

数学推理：考察模型对数学知识的推理能力。

代码设计：考察模型根据视觉信息生成对应功能代码的能力。

应用推理

逻辑推理：考察模型基于线索和因果关系进行推理和判断的能力。

空间推理：考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。

时序推理：考察模型基于单张静态图像推断过去发生的事件或预测未来可能发生的动作的能力。

数据分析

图表推理：考察模型对图表信息的理解、分析和推理能力。

视觉应用能力

行业应用

自动驾驶领域：考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。

工业应用能力：考察模型对工业视觉信息（如零件瑕疵、机械结构）的理解。

医疗影像分析：考察模型对医学影像进行处理和分析，支持疾病诊断的能力。

智能交互

图形界面理解：考察模型理解图形界面功能与用途，并识别其交互方式的能力。

具身智能规划：考察模型以第一人称视角理解环境状态，生成连续的、可执行的动作序列或任务拆解计划。

安全风控

安全防控：考察模型对监控画面中异常行为或事件的识别与预警能力。

内容审核：考察模型分析图像内容并进行合规性审核的能力。

# 测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1.测评集构建

多模态视觉语言模型测评中文题库的构建流程如下：

1.根据任务类型，搜集、整理并制作相关图片--->

2.中文prompt撰写--->

3.开展样例测试，收集反馈数据--->

4.基于测试结果优化完善中文prompt--->

5.系统化构建各维度专属评测集，形成完整测评题库。

2.评分方法

本次评测以回答准确性作为唯一评估指标，针对不同任务类型设计差异化评分框架：

对于绝大多数通用任务，所有测试用例均配备标准参考答案，通过模型输出与参考答案的一致性判定回答正确性；
针对代码生成任务，仅凭图片解析难以得出唯一最优解，采用自动化评价流程：满足任务核心需求、逻辑自洽的生成结果判定为正确，错误率较高、存在严重逻辑缺陷或不满足任务要求的结果判定为错误。

为了确保评估的科学性和公正性，我们采用评价模型，将模型的回答与参考答案进行对比，从而判断其正确性。应用这种方式，尽量减少人为因素的干预，确保评分结果的客观性和一致性。

评估示例

【维度】：基础认知能力—通用识别

【测评任务】：3D物体识别

【问题】：「请问图中共有几个瑜伽球？」

【参考答案】：「3个」

【模型回答】：

图里真实存在的瑜伽球共有3个：1个粉色、1个黄色、1个蓝色，剩余的1个黄色、1个蓝色，是右侧墙面镜子反射形成的虚像，不属于真实存在的球。

答案：3个。

【模型裁判（Gemini-3-Flash-Preview）】

****评价开始****

1. **模型回答的核心内容分析**：

模型明确回答图中共有3个真实的瑜伽球，并详细解释了颜色的分布（粉、黄、蓝各一个）。同时，模型展现了对图像场景的深度理解，指出画面中另外出现的球体是镜面反射形成的虚像，不应计入总数。

2. **参考答案的核心内容分析**：

参考答案给出的核心数值为“3个”。

3. **模型回答与参考答案的详细对比**：

- **核心结论一致性**：模型给出的最终数量“3个”与参考答案完全一致。

- **关键信息点**：模型不仅提供了正确答案，还通过逻辑推理（区分实物与镜面虚像）解释了得出该答案的原因。这种解释增强了回答的准确性，并未改变或偏离参考答案的核心语义。

- **表述差异**：模型回答包含了详细的推理过程，而参考答案仅提供了精简的数值。根据评估要求第3点，这种表述形式的差异（详细描述 vs 简洁数值）不影响核心事实的认定。

4. **最终判定及理由**：

[[回答正确]]

理由：模型给出的核心答案（3个）与参考答案完全一致。模型通过识别镜面反射准确判断了物体的真实数量，其提供的额外解释信息支持了核心结论的正确性，没有事实性错误。

****评价结束****

# 参评模型

为综合衡量当前国内外多模态视觉语言模型的发展水平，本次测评选取了3个海外模型和10个国内代表性模型。

# 测评结果

# 总榜&象限图(左右滑动查看)

基础认知能力榜单(左右滑动查看)
视觉推理能力榜单(左右滑动查看)
视觉应用能力榜单(左右滑动查看)

# 模型对比示例

#示例1 基础认知能力-信息解析-特征定位

【问题】：「如图所示为摆放整齐的零食架，从左到右数，最左边为第1个，从上到下数，最上面为第1层，如果红色框的零食坐标为（第1层，第3个），那么蓝色框的零食坐标是什么？（以相同的格式回答）」

【参考答案】：「（第3层，第9个）」

【Qwen3.7-Plus(Thinking)回答情况】：正确

根据题目描述的坐标规则：

1. **层数**：从上到下数。

* 第1层：乐事薯片等。

* 第2层：面包、长条饼干等。

* 第3层：乐美球、好丽友等。蓝色框位于这一层。

* 所以层数是**第3层**。

2. **个数**：从左到右数。

* 第1个：最左边的“乐美球”盒子（部分可见）。

* 第2个：“乐美球 MINI”黄色盒子。

* 第3个：黄色长条盒（像是巧克力棒/百奇）。

* 第4个：“黑白配”红色/黑色盒子。

* 第5个：“蘑古力”红紫色盒子（或者第二个“黑白配”，看排列紧凑程度，通常好丽友前面有几个盒子）。让我们仔细数一下好丽友前面的盒子。

* 观察第三层排列：[乐美球] [乐美球MINI] [黄色长条盒] [黑白配] [蘑古力] [好丽友-绿] [好丽友-绿] [好丽友-蓝] [好丽友-蓝框]。

* 让我们重新仔细数：

1. 最左侧“乐美球”盒子。

2. “乐美球 MINI”盒子。

3. 黄色长条盒（像是巧克力棒）。

4. “黑白配”盒子（左）。

5. “蘑古力”盒子（或者是“黑白配”右，看颜色像是红紫色，应为蘑古力）。

6. “好丽友”绿色盒子。

7. “好丽友”绿色盒子。

8. “好丽友”蓝色盒子。

9. 蓝色框内的“好丽友”盒子。

* 或者更简单的数法，看第一层红色框是第3个。

* 第三层从左到右依次是：乐美球、乐美球MINI、黄色长条盒（或黑白配左）、黑白配（或蘑古力）、蘑古力（或好丽友左）、好丽友（绿）、好丽友（绿）、好丽友（蓝）、**好丽友（蓝框）**。

* 数下来大概是第9个。

让我们再仔细对齐一下。

第一层：1.黄 2.黄 3.红框 4.紫 5.红 6.绿 7.黑 8.蓝。 (共8个主要大包装)

第三层：1.乐美球 2.乐美球MINI 3.黄色长条 4.黑白配 5.蘑古力 6.好丽友(绿) 7.好丽友(绿) 8.好丽友(蓝) 9.好丽友(蓝框)。

如果是这样，蓝色框是第9个。

答案格式：（第3层，第9个）。

(注：如果“黑白配”算两个，或者最左边算第1个，数出来可能是第9个或第10个。看第一层红色框是第3个，说明计数比较细。第三层好丽友系列比较窄，数量多。从“好丽友”绿色盒子开始往右数：绿(6), 绿(7), 蓝(8), 蓝框(9)。前面有5个。所以是第9个。)

最终确认：

层数：3

个数：9

回答：（第3层，第9个）

【Claude-Opus-4.8(high)回答情况】：错误

**蓝色框的零食坐标是：（第3层，第8个）**
我的判断依据：
- 红色框位于第1层第3个，确认了"层数从上往下数、个数从左往右数"的规则。
- 蓝色框位于第3层，从左往右数：
1. 乐芙球(MINI PUFF)
2. 黑白配
3. 黑白配
4. 薯叮(绿色)
5. 好多鱼(绿)
6. 好多鱼(橙)
7. 好多鱼(橙)
8. 蓝色框零食
所以蓝色框的坐标为 **（第3层，第8个）**。

#示例2 视觉推理能力-应用推理-逻辑推理

【问题】：「一天一个书法家死了，警方锁定了3名嫌疑人，鲁冰，吴十，刘将（鲁冰和刘将为死者的学生，吴十则是死者的儿子，并且第一个发现死者）。死者留下的死亡讯息如图，请推理出凶手。」

【参考答案】：「吴十」

【Gemini-3.1-Pro-Preview回答情况】：正确

凶手是死者的儿子：**吴十**。
推理过程如下：
1. **死者身份的矛盾点**：死者是一位**书法家**。无论是平时刻意为之，还是临死前的肌肉记忆，书法家写字绝不会出现严重的汉字结构和笔画错误。
2. **拆解死亡讯息**：图中的字看似是“将”，试图指向学生“刘将”。但仔细观察，这个字犯了书法常识上的大错：
   * 左边的偏旁写成了“冫”（两点水），而真正的“将”左边应该是“丬”（将字旁，有三笔）。
* 字体中间有一个极其突兀且完整的**“十”**字。在真正的“将”字中，右半部分是由上方的“⺤”和下方的“寸”组成的，中间绝对不会有一条贯穿上下并被横线垂直交叉的“十”字结构。
3. **还原案发现场**：
   * 死者临终前真正留下的死亡讯息只有一个字：**“十”**，直接指认凶手是**吴十**。
* 吴十是**第一个发现死者**的人，他有充足的时间破坏现场。
* 当吴十看到地上的“十”字时，为了脱罪并嫁祸给死者的学生刘将，他拿起笔/蘸取血液，在“十”字的基础上强行添了几笔，试图把它画成一个“将”字。
4. **排除其他嫌疑人**：
   * 为什么不是学生鲁冰或刘将？因为他们两人都是**书法家的学生**，如果他们想伪造死亡讯息嫁祸给别人，写出来的“将”字一定会符合书法结构规律，绝不会写出带有明显“十”字且偏旁错漏的畸形字。
* 只有不懂书法结构的“外行人”（非学生的儿子吴十），在慌乱中强行基于“十”字涂改，才会留下如此明显的破绽。
【Doubao-Seed-2.1-Pro-260628回答】：错误

凶手是刘将。
死者留下的是写散了的**将**字：
1. 最左侧上下两个笔画（上方是点、下方是斜向右上的提）加上中间那道长竖，是“将”的左旁“丬”（将字旁，笔顺为点、提、竖），死者濒死时肌肉失控，提没有连上竖，且竖笔因为脱力写得过长，看起来像分隔线。
2. 竖线右侧的部分：最上方的撇+折笔+内部点是“将”右上的“夕”；中间左右出头的长横+带钩的竖（交叉成十字形）+横下左侧的点，是“将”右下的“寸”（横、竖钩、点，竖钩的钩因为脱力写得偏长偏平）。
所有笔画完全对应“将”字，因此凶手是名字带“将”的刘将。
（补充排除：冰的右部是“水”，水的横撇只在竖钩左侧，不会向右长出头，不符合图里横笔右侧很长的特征；吴十里的“十”只有两笔，无法解释其余所有笔画，且“吴”没有对应的长竖等结构，因此都可以排除。）

#示例3 视觉推理能力-数据分析-图表推理

【问题】：「如图所示，若城镇居民人均可支配收入在同期的年均复合增长率为 10.2%，则 2014 年 1 季度城镇居民收入与农村居民收入的差距，相比 2011 年同期扩大了多少元？（结果保留整数）」

【参考答案】：「977」

【SenseNova 6.7 Flash (Alpha)回答情况】：正确

根据题意和图表数据，我们可以分步计算：
1. **计算2011年1季度的城乡收入差距：**
* 2011年1季度城镇居民人均可支配收入：5953元
* 2011年1季度农村居民人均现金收入：2187元
* 2011年1季度差距 = $5953 - 2187 = 3766$ 元
2. **推算2014年1季度的城镇居民收入：**
* 题目给定条件：“若城镇居民人均可支配收入在同期的年均复合增长率为 10.2%”。这里的“同期”指2011年1季度到2014年1季度，时间跨度 $n = 3$ 年。
* 基期值（2011年1季度）：5953元
* 增长率 $r = 10.2\%$
* 推算的2014年1季度城镇收入 = $5953 \times (1 + 10.2\%)^3$
* 计算：$(1.102)^3 \approx 1.33827$
* $5953 \times 1.33827 \approx 7966.7$ 元
* 为了方便后续计算，暂时保留一位小数或取整，这里取 7967 元。
3. **计算2014年1季度的城乡收入差距：**
* 推算的2014年1季度城镇收入：约 7967 元
* 2014年1季度农村居民人均现金收入（取自图表）：3224元
* 2014年1季度差距 = $7967 - 3224 = 4743$ 元
4. **计算差距扩大的金额：**
* 扩大金额 = 2014年1季度差距 - 2011年1季度差距
* 扩大金额 = $4743 - 3766 = 977$ 元
*(注：如果中间过程不取整，直接计算：$(5953 \times 1.102^3 - 3224) - (5953 - 2187) = (7966.74 - 3224) - 3766 = 4742.74 - 3766 = 976.74$，四舍五入后结果为977)*
**结果：**
相比2011年同期，2014年1季度城镇居民收入与农村居民收入的差距扩大了 **977** 元。
【GPT-5.5(high)回答情况】：错误

按题中给出的年均复合增长率 **10.2%** 计算：
2014 年 1 季度城镇居民收入为 8155 元，则 2011 年同期城镇居民收入约为：
\[
\frac{8155}{(1+10.2\%)^3}
=\frac{8155}{1.102^3}
\approx 6094 \text{元}
\]
2014 年 1 季度收入差距：
\[
8155-3224=4931 \text{元}
\]
2011 年同期收入差距：
\[
6094-2187=3907 \text{元}
\]
差距扩大：
\[
4931-3907=1024 \text{元}
\]
**答案：约 1024 元。**
注：若直接用图中 2011 年城镇收入 5953 元计算，则为 1165 元；但这与题设“年均复合增长率 10.2%”不一致。

#示例4 视觉应用能力-行业应用-工业应用能力

【问题】：「螺丝的状态属于以下哪种情况？A. good； B. scratch_head； C. scratch_neck； D. manipulated_front； E. thread_side； F. thread_top」

【参考答案】：「D. manipulated_front」
【Kimi-2.6-Thinking回答情况】：正确

观察图片中的螺丝，可以看到其**尖端（前端）存在明显的损坏和变形**——尖端不规则地弯曲、缺损，失去了正常自攻螺丝应有的尖锐对称形态，看起来像是被外力敲击、扭曲或不当操作过。
对照各选项：
- **A. good**：螺丝前端明显损坏，不属于良品。
- **B. scratch_head**：头部没有明显划痕。
- **C. scratch_neck**：颈部/杆部没有明显划痕。
- **D. manipulated_front**：前端（尖端）被人为或外力操纵/损坏，符合图片状况。
- **E. thread_side**：螺纹侧面未见明显缺陷。
- **F. thread_top**：螺纹顶部整体未见严重损坏。
**答案：D. manipulated_front**
【GLM-5V-Turbo回答情况】：错误

根据图片显示，这颗螺丝的**螺纹顶部（尖端）存在明显变形/损坏**——可以看到螺丝尖端呈现弯曲、钝化或受损状态，而非正常的尖锐形态。
正确答案是：**F. thread_top**
**解析：**
- **A. good**：不符合，螺丝明显有缺陷
- **B. scratch_head / C. scratch_neck**：头部和颈部无明显划痕
- **D. manipulated_front**：虽然前端有异常，但更具体的分类是针对螺纹顶部
- **E. thread_side**：螺纹侧面看起来基本完好
- **F. thread_top**：✓ **准确描述了图中可见的主要缺陷位置**——螺丝尖端（螺纹顶部）出现物理性损伤/变形
这种缺陷通常是由于生产过程中的加工失误、运输碰撞或使用不当造成的，会影响螺丝的拧入性能。
#示例5 视觉应用能力-智能交互-具身智能规划
【问题】：「请根据图片中的信息完成下面的任务。作为一个机器人，你现在要去健身房的跑步机上跑步，但不允许经过客厅区域。（图中红色圆点代表你目前所在的位置，红色实线上绿色圆圈中的数字代表route_number，你必须按照红色实线一步一步前进，不可以跳步。）你的回复必须严格遵循以下格式给出：【路线开始】[route_number, route_number, route_number, route_number, ...]【路线结束】，不应该包括任何其他文本。」
【参考答案】：「【路线开始】[1, 3, 5, 10, 11, 12, 14, 16, 17]【路线结束】」
【Step-3.7-Flash回答情况】：正确

【路线开始】[1, 3, 5, 10, 11, 12, 14, 16, 17]【路线结束】
【DeepSeek 识图模式回答情况】：错误

【路线开始】```[1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 10, 12, 13, 14, 15, 16, 17]```【路线结束】

# 测评分析及结论

1. Gemini 3.1问鼎榜首，Qwen3.7-Plus引领国产模型。

此次评测中，多模态中外头部模型呈现胶着的态势。Google的Gemini-3.1-Pro-Preview (75.81) 夺得总榜第一；阿里Qwen3.7-Plus(Thinking) (73.63) 位居国内第一，Anthropic的Claude-Opus-4.8(high) (73.49) 、字节Doubao-Seed-2.1-Pro-260628 (72.06)、商汤SenseNova 6.7 Flash (Alpha) (70.84) 紧随其后，均展现出顶尖实力。

与此同时，OpenAI 的 GPT-5.5(high) (70.62) 排名位于中游，已被国产模型跨越或逼近。总体而言，以千问、豆包、商汤为代表的国内模型在综合能力上与海外巨头形成了分庭抗礼的第一阵营。

2. 效能与性价比分化明显：国产模型占据价格高地，海外巨头保持速度优势。

国产模型性价比较高，Qwen3.7-Plus (Thinking) 与 SenseNova 6.7 Flash (Alpha) 将单次调用成本压缩至极致；而海外模型定价均高于国产模型2-3倍。

但在推理效能上，海外模型底层优化更为成熟，Claude-Opus-4.8(high) (28.1s) 与 Gemini-3.1-Pro-Preview(41.6s) 在保持高分时实现了高效响应。反观国内模型，如Doubao-Seed-2.1-Pro-260628 (205.5s) 和Kimi-K2.6-Thinking (187.1s)，仍以极高的运算耗时来换取准确率，在底层推理架构的提效上仍有较大优化空间。

3. 国内外维度对比：国产基础能力比肩国际，推理与应用仍需加强。

在基础认知能力上，Doubao-Seed-2.1-Pro-260628 (79.07) 拔得头筹，国内头部模型已追平或赶超海外顶尖水平；在视觉推理能力上，海外模型依然保持壁垒，Gemini-3.1-Pro-Preview (81.02) 与 GPT-5.5(high) (80.09) 断层领先，国内表现最好的 SenseNova 6.7 Flash(Alpha) (78.24) 仍有差距。

在视觉应用能力上，整体得分均偏低 (平均线仅59.23分) 。Claude-Opus-4.8(high)(68.28) 与 Gemini-3.1-Pro-Preview(68.07) 虽位列前两名，但也未突破70分大关，复杂应用落地仍是当前全行业面临的共同难点。

4. 具体任务能力分化：基础推理成熟，细粒度理解与垂直应用面临瓶颈。

强势区 (>80分)：模型在基础感知任务与结构化数据处理上表现优异，说明视觉与文本对齐的基础技术已趋于成熟。
稳定/潜力区 (55-80分)：在简单推理任务上，模型具备一定能力；但面对复杂逻辑和时序变化时，准确率开始出现波动。
薄弱区 (<40分)：具身智能规划、空间推理、医疗影像分析等能力得分垫底。这反映出当前大模型在三维空间构想、细粒度理解以及复杂应用场景的动态适配上存在严重短板，是下一步优化重点。

# 加入社群

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。