中文多模态视觉语言模型4月测评报告，4月28日发布！

发布时间：2026-04-03来源：CLUE中文语言理解测评基准

紧跟中文多模态视觉语言模型的发展进程，SuperCLUE团队计划于2026年4月28日发布全新评测报告——《中文多模态视觉语言模型基准测评2026年4月报告》。

本次评测在2025年10月推出的 SuperCLUE-VLM 评测体系基础上迎来重大升级，不仅在任务深度上进行了挖掘，更在架构逻辑上进行了全面重组，更精准地刻画大模型从“基础认知”到“视觉推理”再到“视觉应用”的全路径能力，为行业选择、技术优化提供精准且公正的参考依据。

「过往文章介绍」

1.【2026年2月多模态榜单参考文章】2月多模态视觉测评榜单出炉：Gemini-3.1领跑，字节、千问、Kimi 强势突围！

2.【2025年12月多模态榜单参考文章】12月多模态视觉测评榜单出炉：Google Gemini 领跑，商汤 / 字节国产模型冲进前三！

排行榜地址：www.SuperCLUEai.com

# SuperCLUE-VLM测评体系

注：具体的测评体系以正式发布的测评报告为准。

1. 体系更新说明

（1）体系架构深度重组

为了提升评测的系统性与科学性，我们对基准架构进行了整合优化。原有的二级维度（如常识问答、数学推理等）现调整为三级子任务，并归纳形成了九大全新的二级任务维度：

基础认知能力：通用识别、信息解析、感知评价
视觉推理能力：学科推理、应用推理、数据分析
视觉应用能力：行业应用、智能交互、安全风控

这种层级化的设计能够更清晰地呈现模型在不同能力阶梯上的表现。

（2）核心维度演进与新增逻辑

随着多模态大模型从“看图识字”向“深度理解与实用工具”跨越，本次体系更新重点新增了五个代表性的子任务。反映了当前模型在审美感知、动态逻辑、文化共鸣、结构化生产以及复杂决策五个层面的最新演进：

A. “基础认知能力-感知评价”中新增“风格识别”

不再止于“画里有什么”。新增的风格识别要求模型能够解析图像的构图、艺术流派（如赛博朋克、山水画）。

B. “视觉推理能力-应用推理”中新增“时序推理”、“隐喻理解”

时序推理要求模型根据单张静态图像蕴含的物理线索，推断过去发生的事件或预测未来即将发生的动作。

隐喻理解挑战模型对深层文化含义、讽刺意味及网络幽默的解读。模型结合社会文化语境进行抽象推理，才能理解“为什么这张图好笑”或“其背后的讽刺意义”。

C. “视觉推理能力-数据分析”中新增“文档结构化分析”

文档结构化分析将模型能力推向实战，要求其针对复杂版面、嵌套表格等文档内容精准转化为 JSON、Markdown、LaTeX 等可编辑的结构化数据。

D. “视觉应用能力-智能交互”中新增“具身智能规划”

具身智能规划考察模型以第一人称视角理解环境状态，生成连续、可执行的任务拆解计划。

2. 测评任务

基础认知能力

通用识别

常识问答：考察模型理解和回答与日常生活相关的问题（社会常识、品牌标志、人物角色、地标建筑等）的能力。
场景辨识：考察模型识别图像中场景类别（如餐厅、公园、办公室）的能力。

文本识别：考察模型识别和处理文字信息（中英日等不同语言、各类字体形式）的能力。
3D物体识别：考察模型识别三维物体类别的能力。

信息解析

数量判断：考察模型判断物体数量（整体计数、分组计数）的能力。

物体描述：考察模型对不同类别物体（动植物、电器、车辆、日常用品等）的识别能力，以及对物体特征（形状、颜色、材质等）的描述能力。
特征定位：考察模型定位物体的位置及区域的能力。

感知评价

风格识别：评价图像的构图（前景、框架等）、艺术风格或流派（印象派、赛博朋克等）。

表情识别：考察模型判断图像中人物表情（如开心、沮丧、愤怒）的能力。

视觉推理能力

学科推理

科学推理：考察模型对科学知识（如物理、化学、生物、地理等）的推理能力。

数学推理：考察模型对数学知识的推理能力。

代码设计：考察模型根据视觉信息生成对应功能代码的能力。

应用推理

逻辑推理：考察模型基于线索和因果关系进行推理和判断的能力。

空间推理：考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。

时序推理：考察模型基于单张静态图像推断过去发生的事件或预测未来可能发生的动作的能力。

隐喻理解：考察模型对图像中深层含义的理解，包括解读网络梗图、政治讽刺漫画等。

数据分析

图表推理：考察模型对图表信息的理解、分析和推理能力。

文档结构化分析：考察模型对复杂版面的解析能力，并能将非结构化图像转化为结构化数据（JSON、Markdown等格式）。

视觉应用能力

行业应用

自动驾驶领域：考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。

工业应用能力：考察模型对工业视觉信息（如零件瑕疵、机械结构）的理解。

医疗影像分析：考察模型对医学影像进行处理和分析，支持疾病诊断的能力。

智能交互

图形界面理解：考察模型理解图形界面功能与用途，并识别其交互方式的能力。

具身智能规划：考察模型以第一人称视角理解环境状态，生成连续的、可执行的动作序列或任务拆解计划。

安全风控

安全防控：考察模型对监控画面中异常行为或事件的识别与预警能力。

内容审核：考察模型分析图像内容并进行合规性审核的能力。

3.测评方法和评估示例

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1.测评集构建

多模态视觉语言模型测评中文题库的构建流程如下：

1.根据任务类型，搜集、整理并制作相关图片--->

2.中文prompt撰写--->

3.开展样例测试，收集反馈数据--->

4.基于测试结果优化完善中文prompt--->

5.系统化构建各维度专属评测集，形成完整测评题库。

2.评分方法

本次评测以回答准确性作为唯一评估指标，针对不同任务类型设计差异化评分框架：

对于绝大多数通用任务，所有测试用例均配备标准参考答案，通过模型输出与参考答案的一致性判定回答正确性；
针对代码生成、文档结构化分析两类任务，仅凭图片解析难以得出唯一最优解（如CSS样式、排版格式无统一标准），采用自动化评价流程：满足任务核心需求、逻辑自洽的生成结果判定为正确，错误率较高、存在严重逻辑缺陷或不满足任务要求的结果判定为错误。

为了确保评估的科学性和公正性，我们采用评价模型，将模型的回答与参考答案进行对比，从而判断其正确性。应用这种方式，尽量减少人为因素的干预，确保评分结果的客观性和一致性。

新增任务—示例展示

示例1
【维度】：基础认知能力—感知评价
【测评子任务】：风格识别
【问题】：「分析这张图片，它最有可能属于哪种艺术风格？」
【参考答案】：「赛博朋克」
【Qwen3.6-Plus-Thinking回答】
【回答情况】：正确
这张图片最有可能属于 **赛博朋克(Cyberpunk)** 风格，同时也融合了 **Synthwave(合成器波)** 和 **霓虹黑色电影(Neon Noir)** 的美学特征。
**1. 核心风格：赛博朋克 (Cyberpunk)**
这是最显著的特征。赛博朋克的核心定义是“高科技，低生活”（High Tech, Low Life），虽然这张图主要展示了“高科技”的一面，但视觉元素完全符合：
* **未来都市：** 高耸入云、密密麻麻的摩天大楼，给人一种压迫感和拥挤感。
* **霓虹灯光：** 画面充满了高饱和度的霓虹灯招牌、全息投影广告。
* **反乌托邦氛围：** 街道显得阴暗、潮湿，有一种混乱但有序的科技感。
**2. 配色方案：Synthwave / Retrowave (合成器波/复古波)**
* **标志性配色：** 图片大量使用了 **青色 (Cyan/Teal)** 和 **洋红色/粉色(Magenta/Pink)** 的对比。这是80年代复古未来主义（Retrowave）和合成器波音乐的典型视觉配色。
* **发光效果：** 这种高亮、辉光（Glow）的处理方式，让人联想到80年代对未来的想象。
**3. 氛围营造：Neon Noir (霓虹黑色电影)**
* **雨夜与反射：** 地面是湿滑的，倒映着五光十色的灯光。这种“雨夜+霓虹灯”的组合是黑色电影（Film Noir）在科幻题材中的演变，强调了一种神秘、忧郁和孤独的氛围。
* **雾气/朦胧感：** 远处的建筑消失在雾气中，增加了画面的深度和神秘感。

示例2

【维度】：视觉推理能力—应用推理

【测评子任务】：时序推理

【问题】：「假设这个路口只有红灯和绿灯，16s之后，右转灯会变成什么颜色？」

【参考答案】：「红色」

【Gemini-3.1-Pro-Preview回答】

【回答情况】：正确

根据图片显示的情况和你的假设，推导如下：

1. **当前状态：** 右转绿灯正在亮起，倒计时显示还有 **15秒**。

2. **变化过程：** 倒计时结束后（即15秒后），绿灯状态结束。

3. **16秒后的状态：** 既然倒计时只有15秒，且假设只有红绿灯（没有黄灯过渡），那么在第16秒时，信号灯已经完成了切换。

结论：16秒后，右转灯会变成**红色**。

示例3

【维度】：视觉应用能力—智能交互

【测评子任务】：具身智能规划

【问题】：

'''

请根据图片信息完成任务：

你将会收到一个任务需求和一些可以调用的函数及其描述。基于任务需求，你需要尽可能的调用相关函数来完成，请一步一步完成任务需求。在回答的时候务必遵循指定格式，持续输出函数调用直到你认为该任务已完成。

【操作约束：完成任何移动任务必须严格遵守“先拿起、后放下”的物理逻辑，不得省略任何步骤。】

下面提供了一个列表，列表中是一些你可以调用的函数以及函数的功能和参数描述，使用json格式。

[{"name": "pickup", "description": "从指定坐标位置拿起物品", "parameters": {"type": "dict", "properties": {"coordinates": {"type": "array", "description": "需要拿取物品的位置的横坐标和纵坐标，以[x,y]的形式给出", "items": {"type": "number"}}}, "required": ["coordinates"]}},{"name": "putdown", "description": "将一个坐标位置的物品放置到另一个坐标位置", "parameters": {"type": "dict", "properties": {"item_coordinates": {"type": "array", "description": "要移动的物品的当前横坐标和纵坐标，以[x,y]的形式给出", "items": {"type": "number"}}, "target_coordinates": {"type": "array", "description": "需要放置物品的目标位置的横坐标和纵坐标，以[x,y]的形式给出", "items": {"type": "number"}}}, "required": ["item_coordinates", "target_coordinates"]}}]

拿起相机，放到蓝色椅子上。（图中不同物体的位置请按照[x,y]的格式回答，其中x和y分别代表该物体在图片中的横坐标和纵坐标。输出的坐标要求是1000*1000的相对坐标。）

注意：一旦你决定进行函数调用，你的回复中只能包括函数调用。如果需要调用多个函数，你必须在一次回复中同时调用多个函数(多个函数调用必须放在同一个列表中，如果存在先后顺序，请严格按照调用函数的先后顺序排列)。你的函数调用（function calls）必须严格遵循以下格式给出：【函数调用开始】```[func_name1(params_name1=params_value1, params_name2=params_value2...), func_name2(params)]```【函数调用结束】，不应该包括任何其他文本。

'''

【参考答案】：
'''
**原始图片尺寸答案**
[pickup(coordinates=[(2733,2992), (2451,2617)]), putdown(item_coordinates=[(2733,2992), (2451,2617)], target_coordinates=[(4256,5480), (2229,2925)])]

**归一化的图片尺寸答案**
[pickup(coordinates=[(499,546), (671,716)]), putdown(item_coordinates=[(499,546), (671,716)], target_coordinates=[(777,1000), (610,801)])]
'''

【GLM-5回答】

【回答情况】：正确

【函数调用开始】[pickup(coordinates=[525,688]), putdown(item_coordinates=[525,688], target_coordinates=[885,625])]【函数调用结束】

示例4

【维度】：视觉推理能力—应用推理

【测评子任务】：隐喻理解

【问题】：「如图所示，从下列选项中选择最符合的成语来总结一下该图讽刺的人性。A.人面兽心；B.害人害己；C.自私自利；D.恩将仇报」

【参考答案】：「B」

【Kimi-K2.5-Thinking回答】

【回答情况】：正确

我来分析这幅漫画所讽刺的人性。

## 画面解读

这幅漫画描绘了经典的**"跷跷板陷阱"**场景：

- 左侧的人抬起一条腿，正准备**踢向**右侧的人

- 两人站在一个**悬空的跷跷板/木板**两端

- 如果左侧的人真的踢出去，对方会掉下去，但**自己也必然坠落**

## 成语分析

| 选项 | 含义 | 契合度 |

|:---|:---|:---|

| **A. 人面兽心** | 外表像人，内心如野兽般凶残 | ❌ 侧重"伪装善良"，图中无伪装元素 |

| **B. 害人害己** | 损害别人的同时，自己也遭受恶果 | ✅ **高度契合** — 踢人=害人，坠落=害己 |

| **C. 自私自利** | 只为自己打算，不顾他人 | ❌ 图中行为并非"利己"，而是"同归于尽"的愚蠢 |

| **D. 恩将仇报** | 用仇恨回报别人的恩情 | ❌ 无"恩情"前提，两人只是站在对立位置 |

## 答案

**B. 害人害己**

这幅画讽刺的是那些**企图伤害他人却无视自身处境**的人——他们以为能置对方于死地，殊不知双方命运相连，最终只会**两败俱伤**。这是一种愚蠢的恶意，而非单纯的自私或忘恩负义。

示例5

【维度】：视觉推理能力—数据分析

【测评子任务】：文档结构化分析

【问题】：「将图中Layer Norm 层的右侧计算公式转化为markdown格式。」

【Doubao-Seed-2.0-Pro回答】

【回答情况】：与实际公式符合一致，结果正确

\begin{aligned}

\mu_B &\leftarrow \frac{1}{m}\sum_{i=1}^{m} x_i \\

\sigma_B^2 &\leftarrow \frac{1}{m}\sum_{i=1}^{m} (x_i - \mu_B)^2 \\

\hat{x}_i &\leftarrow \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} \\

y_i &\leftarrow \gamma \hat{x}_i + \beta

\end{aligned}

# 测评邀请

时间规划

1. 报名申请、模型对接：即日起-4月15日。

2. 模型测评：4月16日-4月23日。

3. 结果统计：4月24日-4月27日。

4. 测评结果发布：4月28日。

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-VLM中文多模态视觉语言模型测评申请，发送contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。