中文多模态视觉语言模型6月测评报告,6月29日发布!
发布时间:2026-06-02来源:CLUE中文语言理解测评基准

「过往文章介绍」
1.【2026年4月 多模态榜单参考文章】4月多模态视觉测评榜单出炉:Doubao-Seed-2.0问鼎榜首,国内模型大放异彩!
2.【2026年2月 多模态榜单参考文章】2月多模态视觉测评榜单出炉:Gemini-3.1领跑,字节、千问、Kimi 强势突围!
排行榜地址:www.SuperCLUEai.com

注:具体的测评体系以正式发布的测评报告为准。
(1) 分层架构系统化,能力分级逻辑完整
基准采用三级阶梯式层级架构,整体划分为基础认知、视觉推理、视觉应用三大核心一级能力板块,向下细分9项二级维度、25项三级任务,遵循「基础感知→逻辑推理→落地应用」的模型能力路径,对主流多模态大模型进行全链路评测。
(2) 兼顾广度与深度,贴合前沿技术发展
- 横向覆盖面广
横跨通识常识、数理理工、人文艺术、工业产业、安全合规五大领域,兼顾通用场景与垂直细分行业,适配多领域落地的多模态大模型测评需求。 - 纵向深挖能力深度
跳出浅层基础能力测评,深入艺术鉴赏、时序因果推演、文化隐喻解读、文档结构化生产、机器人行动规划等高阶能力,锚定当下多模态模型从基础识图走向智能工具化的前沿发展趋势。
通用识别 常识问答:考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。 场景辨识:考察模型识别图像中场景类别(如餐厅、公园、办公室)的能力。 文本识别:考察模型识别和处理文字信息(中英日等不同语言、各类字体形式)的能力。 3D物体识别:考察模型识别三维物体类别的能力。 信息解析 数量判断:考察模型判断物体数量(整体计数、分组计数)的能力。 物体描述:考察模型对不同类别物体(动植物、电器、车辆、日常用品等)的识别能力,以及对物体特征(形状、颜色、材质等)的描述能力。 特征定位:考察模型定位物体的位置及区域的能力。 感知评价 风格识别:评价图像的构图(前景、框架等)、艺术风格或流派(印象派、赛博朋克等)。 表情识别:考察模型判断图像中人物表情(如开心、沮丧、愤怒)的能力。
视觉推理能力
学科推理 科学推理:考察模型对科学知识(如物理、化学、生物、地理等)的推理能力。 数学推理:考察模型对数学知识的推理能力。 代码设计:考察模型根据视觉信息生成对应功能代码的能力。
应用推理 逻辑推理:考察模型基于线索和因果关系进行推理和判断的能力。 空间推理:考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。 时序推理:考察模型基于单张静态图像推断过去发生的事件或预测未来可能发生的动作的能力。 隐喻理解:考察模型对图像中深层含义的理解,包括解读网络梗图、政治讽刺漫画等。 数据分析 图表推理:考察模型对图表信息的理解、分析和推理能力。 文档结构化分析:考察模型对复杂版面的解析能力,并能将非结构化图像转化为结构化数据(JSON、Markdown等格式)。
视觉应用能力
行业应用 自动驾驶领域:考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。 工业应用能力:考察模型对工业视觉信息(如零件瑕疵、机械结构)的理解。 医疗影像分析:考察模型对医学影像进行处理和分析,支持疾病诊断的能力。 智能交互 图形界面理解:考察模型理解图形界面功能与用途,并识别其交互方式的能力。 具身智能规划:考察模型以第一人称视角理解环境状态,生成连续的、可执行的动作序列或任务拆解计划。 安全风控 安全防控:考察模型对监控画面中异常行为或事件的识别与预警能力。 内容审核:考察模型分析图像内容并进行合规性审核的能力。
5.系统化构建各维度专属评测集,形成完整测评题库。
对于绝大多数通用任务,所有测试用例均配备标准参考答案,通过模型输出与参考答案的一致性判定回答正确性;
针对代码生成、文档结构化分析两类任务,仅凭图片解析难以得出唯一最优解(如CSS样式、排版格式无统一标准),采用自动化评价流程:满足任务核心需求、逻辑自洽的生成结果判定为正确,错误率较高、存在严重逻辑缺陷或不满足任务要求的结果判定为错误。
1. 报名申请、模型对接:即日起-6月11日。
2. 模型测评:6月12日-6月22日。
3. 结果统计:6月23日-6月28日。
4. 测评结果发布:6月29日。
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评API接口或大模型

转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。
