6月多模态视觉测评榜单出炉:Qwen3.7-Plus问鼎国内榜首,Gemini 3.1保持总榜领先!

「过往文章介绍」
1.【2026年4月多模态视觉语言测评文章】4月多模态视觉测评榜单出炉:Doubao-Seed-2.0问鼎榜首,国内模型大放异彩!
2.【2026年2月多模态视觉语言测评文章】2月多模态视觉测评榜单出炉:Gemini-3.1领跑,字节、千问、Kimi 强势突围!
多模态视觉语言模型测评摘要
摘要3:简单推理趋于成熟,细粒度辨识与垂直应用仍为短板。
场景辨识、物体描述等基础能力已趋于成熟(普遍得分>80-90分);但面对视觉重叠、场景伪装等复杂场景,以及工业应用、医疗影像等垂域,模型得分普遍低于50分,细节甄别度、专业知识适配、场景抗干扰能力也是未来重点突破、持续优化的核心方向。
榜单地址:www.superclueai.com

通用识别 常识问答:考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。 场景辨识:考察模型识别图像中场景类别(如餐厅、公园、办公室)的能力。 文本识别:考察模型识别和处理文字信息(中英日等不同语言、各类字体形式)的能力。 3D物体识别:考察模型识别三维物体类别的能力。 信息解析 数量判断:考察模型判断物体数量(整体计数、分组计数)的能力。 物体描述:考察模型对不同类别物体(动植物、电器、车辆、日常用品等)的识别能力,以及对物体特征(形状、颜色、材质等)的描述能力。 特征定位:考察模型定位物体的位置及区域的能力。 感知评价 风格识别:评价图像的构图(前景、框架等)、艺术风格或流派(印象派、赛博朋克等)。 表情识别:考察模型判断图像中人物表情(如开心、沮丧、愤怒)的能力。
视觉推理能力
学科推理 科学推理:考察模型对科学知识(如物理、化学、生物、地理等)的推理能力。 数学推理:考察模型对数学知识的推理能力。 代码设计:考察模型根据视觉信息生成对应功能代码的能力。
应用推理 逻辑推理:考察模型基于线索和因果关系进行推理和判断的能力。 空间推理:考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。 时序推理:考察模型基于单张静态图像推断过去发生的事件或预测未来可能发生的动作的能力。 数据分析 图表推理:考察模型对图表信息的理解、分析和推理能力。
视觉应用能力
行业应用 自动驾驶领域:考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。 工业应用能力:考察模型对工业视觉信息(如零件瑕疵、机械结构)的理解。 医疗影像分析:考察模型对医学影像进行处理和分析,支持疾病诊断的能力。 智能交互 图形界面理解:考察模型理解图形界面功能与用途,并识别其交互方式的能力。 具身智能规划:考察模型以第一人称视角理解环境状态,生成连续的、可执行的动作序列或任务拆解计划。 安全风控 安全防控:考察模型对监控画面中异常行为或事件的识别与预警能力。 内容审核:考察模型分析图像内容并进行合规性审核的能力。
5.系统化构建各维度专属评测集,形成完整测评题库。
对于绝大多数通用任务,所有测试用例均配备标准参考答案,通过模型输出与参考答案的一致性判定回答正确性;
针对代码生成任务,仅凭图片解析难以得出唯一最优解,采用自动化评价流程:满足任务核心需求、逻辑自洽的生成结果判定为正确,错误率较高、存在严重逻辑缺陷或不满足任务要求的结果判定为错误。
评估示例

【参考答案】:「3个」
图里真实存在的瑜伽球共有3个:1个粉色、1个黄色、1个蓝色,剩余的1个黄色、1个蓝色,是右侧墙面镜子反射形成的虚像,不属于真实存在的球。 答案:3个。
1. **模型回答的核心内容分析**: 模型明确回答图中共有3个真实的瑜伽球,并详细解释了颜色的分布(粉、黄、蓝各一个)。同时,模型展现了对图像场景的深度理解,指出画面中另外出现的球体是镜面反射形成的虚像,不应计入总数。 2. **参考答案的核心内容分析**: 参考答案给出的核心数值为“3个”。 3. **模型回答与参考答案的详细对比**: - **核心结论一致性**:模型给出的最终数量“3个”与参考答案完全一致。 - **关键信息点**:模型不仅提供了正确答案,还通过逻辑推理(区分实物与镜面虚像)解释了得出该答案的原因。这种解释增强了回答的准确性,并未改变或偏离参考答案的核心语义。 - **表述差异**:模型回答包含了详细的推理过程,而参考答案仅提供了精简的数值。根据评估要求第3点,这种表述形式的差异(详细描述 vs 简洁数值)不影响核心事实的认定。 4. **最终判定及理由**: [[回答正确]] 理由:模型给出的核心答案(3个)与参考答案完全一致。模型通过识别镜面反射准确判断了物体的真实数量,其提供的额外解释信息支持了核心结论的正确性,没有事实性错误。 ****评价结束****
# 参评模型

# 模型对比示例
#示例1 基础认知能力-信息解析-特征定位
【问题】:「如图所示为摆放整齐的零食架,从左到右数,最左边为第1个,从上到下数,最上面为第1层,如果红色框的零食坐标为(第1层,第3个),那么蓝色框的零食坐标是什么?(以相同的格式回答)」

【参考答案】:「(第3层,第9个)」
根据题目描述的坐标规则: 1. **层数**:从上到下数。 * 第1层:乐事薯片等。 * 第2层:面包、长条饼干等。 * 第3层:乐美球、好丽友等。蓝色框位于这一层。 * 所以层数是**第3层**。 2. **个数**:从左到右数。 * 第1个:最左边的“乐美球”盒子(部分可见)。 * 第2个:“乐美球 MINI”黄色盒子。 * 第3个:黄色长条盒(像是巧克力棒/百奇)。 * 第4个:“黑白配”红色/黑色盒子。 * 第5个:“蘑古力”红紫色盒子(或者第二个“黑白配”,看排列紧凑程度,通常好丽友前面有几个盒子)。让我们仔细数一下好丽友前面的盒子。 * 观察第三层排列:[乐美球] [乐美球MINI] [黄色长条盒] [黑白配] [蘑古力] [好丽友-绿] [好丽友-绿] [好丽友-蓝] [好丽友-蓝框]。 * 让我们重新仔细数: 1. 最左侧“乐美球”盒子。 2. “乐美球 MINI”盒子。 3. 黄色长条盒(像是巧克力棒)。 4. “黑白配”盒子(左)。 5. “蘑古力”盒子(或者是“黑白配”右,看颜色像是红紫色,应为蘑古力)。 6. “好丽友”绿色盒子。 7. “好丽友”绿色盒子。 8. “好丽友”蓝色盒子。 9. 蓝色框内的“好丽友”盒子。 * 或者更简单的数法,看第一层红色框是第3个。 * 第三层从左到右依次是:乐美球、乐美球MINI、黄色长条盒(或黑白配左)、黑白配(或蘑古力)、蘑古力(或好丽友左)、好丽友(绿)、好丽友(绿)、好丽友(蓝)、**好丽友(蓝框)**。 * 数下来大概是第9个。 让我们再仔细对齐一下。 第一层:1.黄 2.黄 3.红框 4.紫 5.红 6.绿 7.黑 8.蓝。 (共8个主要大包装) 第三层:1.乐美球 2.乐美球MINI 3.黄色长条 4.黑白配 5.蘑古力 6.好丽友(绿) 7.好丽友(绿) 8.好丽友(蓝) 9.好丽友(蓝框)。 如果是这样,蓝色框是第9个。 答案格式:(第3层,第9个)。 (注:如果“黑白配”算两个,或者最左边算第1个,数出来可能是第9个或第10个。看第一层红色框是第3个,说明计数比较细。第三层好丽友系列比较窄,数量多。从“好丽友”绿色盒子开始往右数:绿(6), 绿(7), 蓝(8), 蓝框(9)。前面有5个。所以是第9个。) 最终确认: 层数:3 个数:9 回答:(第3层,第9个)
**蓝色框的零食坐标是:(第3层,第8个)** 我的判断依据: - 红色框位于第1层第3个,确认了"层数从上往下数、个数从左往右数"的规则。 - 蓝色框位于第3层,从左往右数: 1. 乐芙球(MINI PUFF) 2. 黑白配 3. 黑白配 4. 薯叮(绿色) 5. 好多鱼(绿) 6. 好多鱼(橙) 7. 好多鱼(橙) 8. 蓝色框零食 所以蓝色框的坐标为 **(第3层,第8个)**。
#示例2 视觉推理能力-应用推理-逻辑推理
【问题】:「一天一个书法家死了,警方锁定了3名嫌疑人,鲁冰,吴十,刘将(鲁冰和刘将为死者的学生,吴十则是死者的儿子,并且第一个发现死者)。死者留下的死亡讯息如图,请推理出凶手。」

【参考答案】:「吴十」
凶手是死者的儿子:**吴十**。 推理过程如下: 1. **死者身份的矛盾点**:死者是一位**书法家**。无论是平时刻意为之,还是临死前的肌肉记忆,书法家写字绝不会出现严重的汉字结构和笔画错误。 2. **拆解死亡讯息**:图中的字看似是“将”,试图指向学生“刘将”。但仔细观察,这个字犯了书法常识上的大错: * 左边的偏旁写成了“冫”(两点水),而真正的“将”左边应该是“丬”(将字旁,有三笔)。 * 字体中间有一个极其突兀且完整的**“十”**字。在真正的“将”字中,右半部分是由上方的“⺤”和下方的“寸”组成的,中间绝对不会有一条贯穿上下并被横线垂直交叉的“十”字结构。 3. **还原案发现场**: * 死者临终前真正留下的死亡讯息只有一个字:**“十”**,直接指认凶手是**吴十**。 * 吴十是**第一个发现死者**的人,他有充足的时间破坏现场。 * 当吴十看到地上的“十”字时,为了脱罪并嫁祸给死者的学生刘将,他拿起笔/蘸取血液,在“十”字的基础上强行添了几笔,试图把它画成一个“将”字。 4. **排除其他嫌疑人**: * 为什么不是学生鲁冰或刘将?因为他们两人都是**书法家的学生**,如果他们想伪造死亡讯息嫁祸给别人,写出来的“将”字一定会符合书法结构规律,绝不会写出带有明显“十”字且偏旁错漏的畸形字。 * 只有不懂书法结构的“外行人”(非学生的儿子吴十),在慌乱中强行基于“十”字涂改,才会留下如此明显的破绽。
凶手是刘将。 死者留下的是写散了的**将**字: 1. 最左侧上下两个笔画(上方是点、下方是斜向右上的提)加上中间那道长竖,是“将”的左旁“丬”(将字旁,笔顺为点、提、竖),死者濒死时肌肉失控,提没有连上竖,且竖笔因为脱力写得过长,看起来像分隔线。 2. 竖线右侧的部分:最上方的撇+折笔+内部点是“将”右上的“夕”;中间左右出头的长横+带钩的竖(交叉成十字形)+横下左侧的点,是“将”右下的“寸”(横、竖钩、点,竖钩的钩因为脱力写得偏长偏平)。 所有笔画完全对应“将”字,因此凶手是名字带“将”的刘将。 (补充排除:冰的右部是“水”,水的横撇只在竖钩左侧,不会向右长出头,不符合图里横笔右侧很长的特征;吴十里的“十”只有两笔,无法解释其余所有笔画,且“吴”没有对应的长竖等结构,因此都可以排除。)
#示例3 视觉推理能力-数据分析-图表推理
【问题】:「如图所示,若城镇居民人均可支配收入在同期的年均复合增长率为 10.2%,则 2014 年 1 季度城镇居民收入与农村居民收入的差距,相比 2011 年同期扩大了多少元?(结果保留整数)」

【参考答案】:「977」
根据题意和图表数据,我们可以分步计算: 1. **计算2011年1季度的城乡收入差距:** * 2011年1季度城镇居民人均可支配收入:5953元 * 2011年1季度农村居民人均现金收入:2187元 * 2011年1季度差距 = $5953 - 2187 = 3766$ 元 2. **推算2014年1季度的城镇居民收入:** * 题目给定条件:“若城镇居民人均可支配收入在同期的年均复合增长率为 10.2%”。这里的“同期”指2011年1季度到2014年1季度,时间跨度 $n = 3$ 年。 * 基期值(2011年1季度):5953元 * 增长率 $r = 10.2\%$ * 推算的2014年1季度城镇收入 = $5953 \times (1 + 10.2\%)^3$ * 计算:$(1.102)^3 \approx 1.33827$ * $5953 \times 1.33827 \approx 7966.7$ 元 * 为了方便后续计算,暂时保留一位小数或取整,这里取 7967 元。 3. **计算2014年1季度的城乡收入差距:** * 推算的2014年1季度城镇收入:约 7967 元 * 2014年1季度农村居民人均现金收入(取自图表):3224元 * 2014年1季度差距 = $7967 - 3224 = 4743$ 元 4. **计算差距扩大的金额:** * 扩大金额 = 2014年1季度差距 - 2011年1季度差距 * 扩大金额 = $4743 - 3766 = 977$ 元 *(注:如果中间过程不取整,直接计算:$(5953 \times 1.102^3 - 3224) - (5953 - 2187) = (7966.74 - 3224) - 3766 = 4742.74 - 3766 = 976.74$,四舍五入后结果为977)* **结果:** 相比2011年同期,2014年1季度城镇居民收入与农村居民收入的差距扩大了 **977** 元。
按题中给出的年均复合增长率 **10.2%** 计算: 2014 年 1 季度城镇居民收入为 8155 元,则 2011 年同期城镇居民收入约为: \[ \frac{8155}{(1+10.2\%)^3} =\frac{8155}{1.102^3} \approx 6094 \text{元} \] 2014 年 1 季度收入差距: \[ 8155-3224=4931 \text{元} \] 2011 年同期收入差距: \[ 6094-2187=3907 \text{元} \] 差距扩大: \[ 4931-3907=1024 \text{元} \] **答案:约 1024 元。** 注:若直接用图中 2011 年城镇收入 5953 元计算,则为 1165 元;但这与题设“年均复合增长率 10.2%”不一致。
#示例4 视觉应用能力-行业应用-工业应用能力
【问题】:「螺丝的状态属于以下哪种情况?A. good; B. scratch_head; C. scratch_neck; D. manipulated_front; E. thread_side; F. thread_top」

【参考答案】:「D. manipulated_front」
观察图片中的螺丝,可以看到其**尖端(前端)存在明显的损坏和变形**——尖端不规则地弯曲、缺损,失去了正常自攻螺丝应有的尖锐对称形态,看起来像是被外力敲击、扭曲或不当操作过。 对照各选项: - **A. good**:螺丝前端明显损坏,不属于良品。 - **B. scratch_head**:头部没有明显划痕。 - **C. scratch_neck**:颈部/杆部没有明显划痕。 - **D. manipulated_front**:前端(尖端)被人为或外力操纵/损坏,符合图片状况。 - **E. thread_side**:螺纹侧面未见明显缺陷。 - **F. thread_top**:螺纹顶部整体未见严重损坏。 **答案:D. manipulated_front**
根据图片显示,这颗螺丝的**螺纹顶部(尖端)存在明显变形/损坏**——可以看到螺丝尖端呈现弯曲、钝化或受损状态,而非正常的尖锐形态。 正确答案是:**F. thread_top** **解析:** - **A. good**:不符合,螺丝明显有缺陷 - **B. scratch_head / C. scratch_neck**:头部和颈部无明显划痕 - **D. manipulated_front**:虽然前端有异常,但更具体的分类是针对螺纹顶部 - **E. thread_side**:螺纹侧面看起来基本完好 - **F. thread_top**:✓ **准确描述了图中可见的主要缺陷位置**——螺丝尖端(螺纹顶部)出现物理性损伤/变形 这种缺陷通常是由于生产过程中的加工失误、运输碰撞或使用不当造成的,会影响螺丝的拧入性能。
#示例5 视觉应用能力-智能交互-具身智能规划
【问题】:「请根据图片中的信息完成下面的任务。作为一个机器人,你现在要去健身房的跑步机上跑步,但不允许经过客厅区域。(图中红色圆点代表你目前所在的位置,红色实线上绿色圆圈中的数字代表route_number,你必须按照红色实线一步一步前进,不可以跳步。)你的回复必须严格遵循以下格式给出:【路线开始】[route_number, route_number, route_number, route_number, ...]【路线结束】,不应该包括任何其他文本。」

【参考答案】:「【路线开始】[1, 3, 5, 10, 11, 12, 14, 16, 17]【路线结束】」
【路线开始】[1, 3, 5, 10, 11, 12, 14, 16, 17]【路线结束】
【路线开始】```[1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 10, 12, 13, 14, 15, 16, 17]```【路线结束】
1. Gemini 3.1问鼎榜首,Qwen3.7-Plus引领国产模型。
此次评测中,多模态中外头部模型呈现胶着的态势。Google的Gemini-3.1-Pro-Preview (75.81) 夺得总榜第一;阿里Qwen3.7-Plus(Thinking) (73.63) 位居国内第一,Anthropic的Claude-Opus-4.8(high) (73.49) 、字节Doubao-Seed-2.1-Pro-260628 (72.06)、商汤SenseNova 6.7 Flash (Alpha) (70.84) 紧随其后, 均展现出顶尖实力。

与此同时,OpenAI 的 GPT-5.5(high) (70.62) 排名位于中游,已被国产模型跨越或逼近。总体而言,以千问、豆包、商汤为代表的国内模型在综合能力上与海外巨头形成了分庭抗礼的第一阵营。


强势区 (>80分):模型在基础感知任务与结构化数据处理上表现优异,说明视觉与文本对齐的基础技术已趋于成熟。 稳定/潜力区 (55-80分):在简单推理任务上,模型具备一定能力;但面对复杂逻辑和时序变化时,准确率开始出现波动。 薄弱区 (<40分):具身智能规划、空间推理、医疗影像分析等能力得分垫底。这反映出当前大模型在三维空间构想、细粒度理解以及复杂应用场景的动态适配上存在严重短板,是下一步优化重点。

# 加入社群

扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark













