4月多模态视觉测评榜单出炉:Doubao-Seed-2.0问鼎榜首,国内模型大放异彩!

「过往文章介绍」
1.【2026年2月多模态视觉语言测评文章】2月多模态视觉测评榜单出炉:Gemini-3.1领跑,字节、千问、Kimi 强势突围!
2.【2025年12月多模态视觉语言测评文章】12月多模态视觉测评榜单出炉:Google Gemini 领跑,商汤 / 字节国产模型冲进前三!
多模态视觉语言模型测评摘要
摘要3:基础与推理能力趋于成熟,垂直应用理解仍需加强。
多模态模型在通用识别、感知评价、数据分析等基础认知与推理维度上已趋于成熟(>90分);然而,在行业应用板块,针对“工业应用能力”、“医疗影像分析”等特定应用场景时,模型分数几乎低于50分,在实体应用落地上仍存在进步空间。


榜单地址:www.superclueai.com

通用识别 常识问答:考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。 场景辨识:考察模型识别图像中场景类别(如餐厅、公园、办公室)的能力。 文本识别:考察模型识别和处理文字信息(中英日等不同语言、各类字体形式)的能力。 3D物体识别:考察模型识别三维物体类别的能力。 信息解析 数量判断:考察模型判断物体数量(整体计数、分组计数)的能力。 物体描述:考察模型对不同类别物体(动植物、电器、车辆、日常用品等)的识别能力,以及对物体特征(形状、颜色、材质等)的描述能力。 特征定位:考察模型定位物体的位置及区域的能力。 感知评价 风格识别:评价图像的构图(前景、框架等)、艺术风格或流派(印象派、赛博朋克等)。 表情识别:考察模型判断图像中人物表情(如开心、沮丧、愤怒)的能力。
视觉推理能力
学科推理 科学推理:考察模型对科学知识(如物理、化学、生物、地理等)的推理能力。 数学推理:考察模型对数学知识的推理能力。 代码设计:考察模型根据视觉信息生成对应功能代码的能力。
应用推理 逻辑推理:考察模型基于线索和因果关系进行推理和判断的能力。 空间推理:考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。 时序推理:考察模型基于单张静态图像推断过去发生的事件或预测未来可能发生的动作的能力。 隐喻理解:考察模型对图像中深层含义的理解,包括解读网络梗图、政治讽刺漫画等。 数据分析 图表推理:考察模型对图表信息的理解、分析和推理能力。 文档结构化分析:考察模型对复杂版面的解析能力,并能将非结构化图像转化为结构化数据(JSON、Markdown等格式)。
视觉应用能力
行业应用 自动驾驶领域:考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。 工业应用能力:考察模型对工业视觉信息(如零件瑕疵、机械结构)的理解。 医疗影像分析:考察模型对医学影像进行处理和分析,支持疾病诊断的能力。 智能交互 图形界面理解:考察模型理解图形界面功能与用途,并识别其交互方式的能力。 具身智能规划:考察模型以第一人称视角理解环境状态,生成连续的、可执行的动作序列或任务拆解计划。 安全风控 安全防控:考察模型对监控画面中异常行为或事件的识别与预警能力。 内容审核:考察模型分析图像内容并进行合规性审核的能力。
5.系统化构建各维度专属评测集,形成完整测评题库。
对于绝大多数通用任务,所有测试用例均配备标准参考答案,通过模型输出与参考答案的一致性判定回答正确性;
针对代码生成、文档结构化分析两类任务,仅凭图片解析难以得出唯一最优解(如CSS样式、排版格式无统一标准),采用自动化评价流程:满足任务核心需求、逻辑自洽的生成结果判定为正确,错误率较高、存在严重逻辑缺陷或不满足任务要求的结果判定为错误。
评估示例

【参考答案】:「3个」
要数放有水果的碟子: 1. 右上角多边形碟,装青/黄褐色的鲜果,是水果碟; 2. 右侧六边形碟,装葡萄类鲜果,是水果碟; 3. 下方偏右的多边形碟,装小番茄(圣女果),是水果碟。 其余碟子装的是中式糕点、茶具,不属于水果碟。 答案:$\boxed{3}$
1. **模型回答的核心内容分析**: 模型回答首先对图像内容进行了细致解析,指出了三个具体的碟子及其盛放的水果类型(青/黄褐色鲜果、葡萄类、小番茄/圣女果),并明确排除了盛放糕点和茶具的碟子。最终给出的数值结论为“3”。 2. **参考答案的核心内容分析**: 参考答案给出的核心信息为“3个”。 3. **模型回答与参考答案的详细对比**: - **核心结论一致性**:模型给出的最终答案是“3”,参考答案是“3个”。两者在核心数量判断上完全一致。 - **关键信息点**:模型通过分类讨论(区分水果、糕点、茶具)推导出了答案,这一过程是对问题的深入解析。模型识别出的三处水果碟子支撑了其最终的数值判断。 - **表述形式**:模型使用了LaTeX格式标记数字($\boxed{3}$),而参考答案为文本格式,这属于表述形式的细微差异,不影响核心语义。 4. **最终判定及理由**: [[回答正确]] 理由:模型的回答在核心语义和事实陈述上与参考答案完全一致。模型不仅准确判断出了“3”这个数量,还通过详细的视觉解析过程证明了其判断的合理性,完全符合参考答案的要求。 ****评价结束****
# 参评模型



# 模型对比示例
#示例1 基础认知能力-通用识别-3D物体识别
【问题】:「这是一个房间的两个视角图,请判断一下视图1是在视图2的哪个位置拍摄的?是①、②还是③?」

【参考答案】:「②」
要判断拍摄位置,我们先梳理两个视图的物体对应关系和空间逻辑: ### 步骤1:识别共同参照物,明确视图2的视角 两个视图的共同元素包括:粉白格床、粉色枕头、白色兔子玩偶、猫、灰色地毯、白色椅子、书桌(带键盘/显示器)、白色球形台灯、装饰画、窗边植物。 视图2是**站在房间东侧朝西拍摄的平视视角**(不是俯视图!画面下方是近处地面,上方是远处墙面/天花板,左是北、右是南): - 床沿房间东西方向放置,床头(枕头、兔子端)在西侧(靠近窗户),床尾在东侧,在视图2里从下(近,西)到上(远,东)延伸。 - 地毯在床的南侧(视图2的右侧),椅子在地毯上、靠近书桌。 - 书桌靠东墙放置,键盘面朝房间内部(朝西),在视图2的右侧偏上位置。 - 三个蓝色标记都在南侧墙(视图2的右侧墙)/东侧墙附近: - ①在右上角:东南墙角(门旁)。 - ②在右侧中间:南墙中部,在椅子的正右方。 - ③在左上角:东北墙角。 --- ### 步骤2:分析视图1的拍摄需求 视图1的画面特征: 1. **前景是白色椅子的靠背**,占画面下方大部分区域,说明拍摄者离椅子非常近,椅子在拍摄者正前方。 2. 左侧是西墙的窗户,从近到远延伸,说明窗户在拍摄者左前方。 3. 右侧是东墙的书桌和书架,在画面右侧远处,说明书桌在拍摄者右前方。 4. 床在画面中间,左右延伸,兔子在床的左侧(床头),猫在床中间,说明拍摄者面朝床的南侧,朝向西北方向。 --- ### 步骤3:逐一排除不符合的位置 - **排除③**:③在东北墙角,朝西南拍摄的话,前景会是床尾,看不到椅子在前景,且画面左右会和视图1相反(左边是书桌、右边是窗户),不符合。 - **排除①**:①在东南墙角(门旁),朝西拍摄的话,最近的物体是书桌,前景会出现书桌,而不是椅子;且椅子会在画面左侧,无法处于前景中间位置,不符合。 - **符合②**:②在南墙中部,椅子的正右方,朝西北方向拍摄时: - 椅子在正前方,离得近,作为前景占满画面下方,和视图1一致。 - 左前方是西墙的窗户,右前方是东墙的书桌,中间是床,兔子在床的左侧,完全匹配视图1的布局。 答案:$\boxed{②}$
根据对两张图片的布局分析和视角匹配,可以得出以下结论: 1. **分析视图2(俯视图)的布局:** * **左侧(西):** 有一张铺着粉白格子床单的床。床头在下方(南),床尾在上方(北)。床的左侧(西墙)看起来是窗户所在的位置(结合视图1判断)。 * **右侧(东):** 有一张白色的书桌,配有电脑和椅子。 * **上方(北):** 有一些木色的架子。 * **下方(南):** 床头区域,有兔子玩偶。 * **位置标注:** * **①** 位于右上角(东北角),看起来像是房间的入口/门。 * **②** 位于右侧(东墙),书桌旁边。 * **** 位于左上角(西北角),床尾旁边。 2. **分析视图1(平视图)的内容:** * **左侧:** 有大窗户,光线明亮。 * **中间:** 是那张粉白格子的床,上面有猫和兔子玩偶。 * **右侧:** 有白色的搁板/书架,上面放着植物等物品。 * **正前方/远处:** 墙上有一个黑色的小画/装饰物。 * **前景:** 有一个白色的椅子背。 3. **匹配视角:** * 如果站在 **位置①(右上角/东北角)** 向房间内拍摄(面向西南方向): * **左手边** 会看到西墙,也就是窗户的位置。这与视图1左侧是大窗户相符。 * **中间** 会看到床。这与视图1中间是床相符。 * **右手边** 会看到东墙的书桌区域。视图1右侧的白色搁板很可能是书桌旁边的收纳架或书桌的一部分。 * **正前方** 会看到床尾方向的墙壁或者西墙的南段。视图2中西墙(左墙)中间有一个黑色的小画,这与视图1正前方墙上的小画位置吻合(在床的上方/侧方)。 * **前景** 的椅子背说明拍摄者站在房间入口处,前面有一把椅子(可能是视图2中间的那把白色椅子)。 * 如果站在 **位置③(左上角)**:面向东南看,左手边应该是北墙(木架子),右手边是床。这与视图1(左窗右架)不符。 * 如果站在 **位置②(右侧)**:面向西看,正前方是床,左手边是南(床头),右手边是北(床尾)。虽然能看到床和窗,但视角会更近,且右侧应该是北墙(木架子),而不是视图1中的白色搁板。 综上所述,视图1是从房间门口(位置①)向内拍摄的。 **答案:①**
#示例2 基础认知能力-信息解析-物体描述
【问题】:「以当前图片视角为准,红框中的书名是什么?并且作者名叫什么?」

【参考答案】:「红框中书名叫《我的奋斗》,作者是罗永浩。」
以当前图片视角(不旋转图片,直接从左向右看)为准,由于这本书是**倒着放**的,文字顺序如下: * 红框中的书名显示为:**斗奋的我**(且字体是倒置的) * 作者名显示为:**著浩永罗**(且字体是倒置的) *(注:如果将书正过来,正确的书名是《我的奋斗》,作者是罗永浩。)*』 **参考答案**: 『红框中书名叫《我的奋斗》,作者是罗永浩。
**书名:《我的奋斗》** **作者:恶永佑** (红框精确框住的就是这本黑色书脊的书,书名和作者名在书脊上清晰可见。)
#示例3 视觉推理能力-学科推理-数学推理
【问题】:「如图所示,求由 \( y = x^2 + 2 \)、\( y = 3x \)、\( x = 0 \) 所围成的阴影区域的面积。」

【参考答案】:「1」
**解题步骤:** 1. **确定交点坐标:** 首先,我们需要找到抛物线 \( y = x^2 + 2 \) 和直线 \( y = 3x \) 的交点。联立两个方程: \[ x^2 + 2 = 3x \] 整理得: \[ x^2 - 3x + 2 = 0 \] 因式分解: \[ (x - 1)(x - 2) = 0 \] 解得 \( x_1 = 1 \) 和 \( x_2 = 2 \)。 对应的 \( y \) 值为: 当 \( x = 1 \) 时,\( y = 3(1) = 3 \),交点为 \( (1, 3) \)。 当 \( x = 2 \) 时,\( y = 3(2) = 6 \),交点为 \( (2, 6) \)。 2. **分析阴影区域:** 观察图像,阴影区域分为两部分: * **第一部分(左侧):** 在 \( y \) 轴 (\( x=0 \)) 和第一个交点 (\( x=1 \)) 之间。 在此区间 \( [0, 1] \) 内,取 \( x=0.5 \) 测试,\( y_{抛} = 0.5^2 + 2 = 2.25 \),\( y_{直} = 3(0.5) = 1.5 \)。 因为 \( 2.25 > 1.5 \),所以抛物线 \( y = x^2 + 2 \) 在直线 \( y = 3x \) 的上方。 * **第二部分(右侧):** 在两个交点 (\( x=1 \) 和 \( x=2 \)) 之间。 在此区间 \( [1, 2] \) 内,取 \( x=1.5 \) 测试,\( y_{直} = 3(1.5) = 4.5 \),\( y_{抛} = 1.5^2 + 2 = 4.25 \)。 因为 \( 4.5 > 4.25 \),所以直线 \( y = 3x \) 在抛物线 \( y = x^2 + 2 \) 的上方。 3. **列出面积积分公式:** 总面积 \( S \) 等于两部分面积之和: \[ S = S_1 + S_2 = \int_{0}^{1} [(x^2 + 2) - 3x] \, dx + \int_{1}^{2} [3x - (x^2 + 2)] \, dx \] 4. **计算定积分:** * 计算 \( S_1 \): \[ \begin{aligned} S_1 &= \int_{0}^{1} (x^2 - 3x + 2) \, dx \\ &= \left[ \frac{1}{3}x^3 - \frac{3}{2}x^2 + 2x \right]_{0}^{1} \\ &= \left( \frac{1}{3} - \frac{3}{2} + 2 \right) - 0 \\ &= \frac{2}{6} - \frac{9}{6} + \frac{12}{6} \\ &= \frac{5}{6} \end{aligned} \] * 计算 \( S_2 \): \[ \begin{aligned} S_2 &= \int_{1}^{2} (-x^2 + 3x - 2) \, dx \\ &= \left[ -\frac{1}{3}x^3 + \frac{3}{2}x^2 - 2x \right]_{1}^{2} \\ &= \left( -\frac{8}{3} + \frac{3}{2}(4) - 4 \right) - \left( -\frac{1}{3} + \frac{3}{2} - 2 \right) \\ &= \left( -\frac{8}{3} + 6 - 4 \right) - \left( -\frac{1}{3} + \frac{3}{2} - 2 \right) \\ &= \left( 2 - \frac{8}{3} \right) - \left( \frac{-2 + 9 - 12}{6} \right) \\ &= \left( \frac{6}{3} - \frac{8}{3} \right) - \left( -\frac{5}{6} \right) \\ &= -\frac{2}{3} + \frac{5}{6} \\ &= -\frac{4}{6} + \frac{5}{6} \\ &= \frac{1}{6} \end{aligned} \] 5. **求和:** \[ S = S_1 + S_2 = \frac{5}{6} + \frac{1}{6} = 1 \] **最终答案:** 阴影区域的面积为 **1**。』 **参考答案**: 『1』
## 解答过程 ### 第一步:确定边界曲线的交点 **求 $y = x^2 + 2$ 与 $y = 3x$ 的交点:** 令 $x^2 + 2 = 3x$,即 $$x^2 - 3x + 2 = 0$$ $$(x-1)(x-2) = 0$$ 得 $x = 1$ 或 $x = 2$ 对应交点为 $(1, 3)$ 和 $(2, 6)$ **求与 $x = 0$($y$轴)的交点:** - $y = x^2 + 2$ 与 $x = 0$ 交于点 $(0, 2)$ - $y = 3x$ 与 $x = 0$ 交于原点 $O(0, 0)$ ### 第二步:确定积分区域 从图像可知,阴影区域是由: - 左边界:$x = 0$ - 下边界:$y = 3x$ - 上边界:$y = x^2 + 2$ 围成的区域,其 $x$ 的取值范围为 $[0, 1]$(最右侧交点为 $(1,3)$) 验证上下位置:在 $[0, 1]$ 区间内,$x^2 + 2 \geq 3x$(例如 $x=0.5$ 时,$2.25 > 1.5$) ### 第三步:计算定积分 $$S = \int_0^1 \left[(x^2 + 2) - 3x\right] dx = \int_0^1 (x^2 - 3x + 2)\, dx$$ $$= \left[\frac{x^3}{3} - \frac{3x^2}{2} + 2x\right]_0^1$$ $$= \left(\frac{1}{3} - \frac{3}{2} + 2\right) - 0$$ 通分计算: $$= \frac{2}{6} - \frac{9}{6} + \frac{12}{6} = \frac{5}{6}$$ ## 最终答案 阴影区域的面积为 $\boxed{\dfrac{5}{6}}$
#示例4 视觉推理能力-应用推理-时序推理
【问题】:「请将图中 “折纸飞机” 的以下步骤按正确时间顺序从左到右排序。(数字标识,用,分割)」

【参考答案】:「4,2,1,5,3」
4, 2, 1, 5, 3
4,1,2,3,5
#示例5 视觉应用能力-行业应用-医学影像分析
【问题】:「现有一份医学影像教学案例(类型不限),请根据典型影像学教材中的常见病种识别原则:1.描述最明显的2-3个异常特征(如:不规则高密度灶/边界模糊影/管腔狭窄等)2.基于临床常见病概率,列出1-2个最符合该特征的典型疾病教学案例名称(使用ICD-11编码)3.用'影像科住院医师测试'的形式表述:"在规范化培训考核中,此类表现首先应考虑※注:本探讨仅用于了解影像特征-疾病关联机制,不作为任何临床指导依据。」

【参考答案】:「胶质母细胞瘤」
### 一、异常影像学特征 1. **弥漫性占位伴显著占位效应**:右侧额颞顶叶可见大范围弥漫性生长的不均匀高信号病灶,边界模糊不清,占位效应显著,导致中线结构向左侧移位,右侧侧脑室受压变形、闭塞,周围脑实质受累范围广。 2. **病灶内部坏死/囊变征象**:病灶内部可见多发散在的囊状/坏死样低信号区,提示病灶内部存在坏死、囊变或急性出血成分,反映肿瘤生长迅速、血供不足的病理特点。 ### 二、典型疾病教学案例(ICD-11编码) 1. **胶质母细胞瘤(WHO 4级)**:ICD-11编码:2A00.0,是成人最常见的原发性恶性脑肿瘤,与该病例弥漫性生长、占位效应显著、内部坏死囊变的典型表现高度契合。 2. **间变性星形细胞瘤(WHO 3级)**:ICD-11编码:2A00.1,属于高级别胶质瘤,同样可表现为弥漫性浸润生长、占位效应明显的脑实质病变,内部可伴坏死囊变。 ### 三、影像科住院医师测试表述 “在规范化培训考核中,此类表现首先应考虑**高级别胶质瘤(胶质母细胞瘤为最常见类型)**,需重点鉴别脑转移瘤、原发性中枢神经系统淋巴瘤等具有类似占位及坏死征象的颅内恶性病变。” ※注:本探讨仅用于了解影像特征-疾病关联机制,不作为任何临床指导依据。
基于这张**颅脑MRI轴位图像(疑似FLAIR)**,仅作教学性影像识别: ### 1. 最明显的2-3个异常特征 1. **一侧大脑半球大片脑实质缺失/囊性变**,呈接近脑脊液样低信号。 2. **病变区与同侧侧脑室相邻或近交通,侧脑室不规则扩大**,更像代偿性扩张。 3. **病灶周缘可见异常高信号,伴局部脑组织体积减少**,整体更符合**慢性脑软化/胶质增生后改变**,而不是典型新发占位。 ### 2. 基于临床常见病概率,最符合该特征的典型疾病教学案例 1. **陈旧性大面积脑梗死后脑软化(多见大脑中动脉供血区)** - **ICD-11:8B11**(脑缺血性卒中;此图像表现可见于其陈旧期脑软化/囊变) 2. **陈旧性脑出血后脑软化/囊变** - **ICD-11:8B01**(非创伤性脑内出血;陈旧期亦可形成类似囊变与脑室代偿性扩大) > 补充教学鉴别:若题干提示**儿童、围产期损伤或先天病史**,形态学上还应联想到**孔脑性缺损类病变**。 ### 3. 影像科住院医师测试 **在规范化培训考核中,此类表现首先应考虑“陈旧性大面积脑梗死后脑软化”;若结合既往出血史,则进一步考虑“陈旧性脑出血后脑软化/囊变”。** ※本探讨仅用于了解影像特征-疾病关联机制,不作为任何临床指导依据。
1. Doubao-Seed-2.0强势突围领跑,国产模型集体突围。
在此次评测中,多模态模型的竞争格局发生逆转。国内字节跳动 Doubao-Seed-2.0-Pro-260215 (90.66分) 夺得总榜第一;海外模型 Gemini-3.1-Pro-Preview (89.35分) 退居次席。国内梯队形成合围之势,阿里 Qwen3.5-397B-A17B-Thinking (88.50分)、Qwen3.6-Plus-Thinking (86.73分) 以及商汤 SenseNova 6.5 Pro-20260214 (85.88分) 均展现出顶尖实力。

与此同时,部分海外主流模型如 OpenAI 的 GPT-5.4(xhigh) (80.79分) 和 的 Grok-4.20-0309-Reasoning (78.01分) 排名相对靠后,已被月之暗面 Kimi-K2.6-Thinking(84.65分) 和智谱 GLM-5V-Turbo (84.18分) 等多款国产模型跨越。总体而言,国内模型在综合能力上实现了对海外头部阵营的全面超越。


基础感知类任务(数量判断、表情识别、文本识别等)得分普遍较高,说明多模态模型在基础识别与判断任务上已较为成熟; 在需要一定推理的工作上(隐喻理解、图表推理、文档结构化分析、图形界面理解等)表现逐渐出色,说明其OCR、基础推理与分析能力扎实; 而复杂推理与专业领域任务(空间推理、医疗影像分析、工业应用能力等)得分偏低,薄弱部分甚至低于40分,反映出模型在深度空间构想与垂直场景的适配上仍存在明显短板。

# 加入社群

扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark









