具身智能世界模型评测方案发布|EmbodiedCLUE-World

发布时间：2026-05-06来源：CLUE中文语言理解测评基准

# 测评背景

随着视频生成与具身智能快速发展，世界模型正成为机器人系统的关键层。不同于通用视频生成，具身世界模型须在初始状态与任务指令下预测物理合理、任务一致且交互可靠的未来场景。本方案聚焦任务一致性、物理合理性、运动连续性、空间一致性和最终状态可解释性，系统考察世界模型对物理规律、任务逻辑、交互过程与未来状态的预测能力。

# 方案概览

基准场景设计

评测流程设计

本方案评测使用的提示词和图片等内容均来自前述 EmbodiedCLUE 具身智能桌面操作场景评测中的数据。
SuperCLUE，公众号：CLUE中文语言理解测评基准具身智能桌面操作场景统一评测：基准能力、中文支持与综合评分|EmbodiedCLUE

# 评测方案基准介绍

1.基准设计特点

本评测基准以具身操作任务为导向，构建了不依赖仿真日志的 VLM 与非 VLM 混合评测体系。其优势包括：

任务导向与无日志轻量设计：指标围绕机器人操作设计，聚焦任务完成度与物理合理性，不依赖仿真状态和动作日志，仅需视频帧、任务指令与可选参考视频即可评测。

继承 WorldArena 并适度扩展：保留交互质量、轨迹准确性、深度准确性等核心指标，并新增具身扩展指标，兼顾成熟框架与场景适配。
VLM 语义判断与非 VLM 客观计算互补：VLM 负责语义、交互与失败诊断，非 VLM 量化轨迹、深度等客观指标，实现主观灵活性与客观稳定性的结合。
支持多模型公平对比与诊断分析：基于统一任务、指令和指标，可直接构建世界模型横向榜单，并统计失败模式以诊断模型短板。

2.基准场景设计

EmbodiedCLUE-World 方案以 RoboCasa-GR1 桌面操作场景为准，设计场景图片与任务提示词作为评测数据。统一评测指标采用“6+6”混合结构，由6项基于多模态大模型（VLM）评估的指标与6项基于确定性算法计算的指标组成。其中：

VLM 指标承担语义理解、交互诊断与任务完成度判断。

非 VLM 指标基于确定性算法量化轨迹精度、深度准确性等客观维度。

这一混合设计有效弥补了单一依赖的不足，从而实现更具说服力的综合评估。详细评价场景指标如下所示：

在此基础上，本方案从WorldArena原有的16项指标中保留具身相关的交互质量、轨迹精度、深度准确性等8项核心指标，并新增子目标完成度、失败模式诊断、最终状态相似度、接触因果合理性4项具身扩展指标，构成12指标评分体系，全面衡量生成视频的任务功能价值与生成质量。场景基准指标详细介绍如下：

注：所有VLM指标和非VLM指标最终经过归一化后加权计算总分

# 评测方法

1.评测流程

本方案面向具身智能世界模型生成的视频结果，尤其适用于 RoboCasa GR1 tabletop manipulation 等桌面机器人操作场景。为了真实反映机器人的关节动作，视频输入采用nvidia/PhysicalAI-Robotics-GR00T-GR1数据集中基于真实机器人关节数据生成的训练用成功示例，作为参考的成功案例视频输入项；初始帧输入采用Robocasa-GR1基准对应任务场景的初始帧作为输入项。评测的主要数据流程如下：

具身智能桌面操作场景统一评测：基准能力、中文支持与综合评分 |EmbodiedCLUE

评测输入内容包括：

评测输出为一个结构化 JSON 或表格，包含 12 个指标的分数、解释和可选诊断标签。输出解释如下所示：

{"Instruction_Following": #指令遵循度 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "reason": #该维度评分解释 }"Subgoal_Completion": #子目标完成度 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "subgoals": #子目标完成情况，以true和false表示 { "approach_object":#接近物体 "grasp_object":#抓取物体 "lift_object":#抬起物体 "transport_to_target":#搬运至目标 "place_into_target":#放入目标容器 "release_object":#释放物体 "close_container":#关闭容器 }, "reason": #该维度评分解释 }"Interaction_Quality": #交互质量 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "reason": #该维度得分解释 }"Contact_Causality": #接触合理性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "reason": #该维度评分解释 }"Perspectivity": #透视一致性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "reason": #该维度评分解释 }, "Depth_Accuracy": #深度准确性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 }"Trajectory_Accuracy": #轨迹准确性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 }"Motion_Smoothness": #运动平滑性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 }"Subject_Consistency":#主体一致性 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 }"Semantic_Alignment": #语义对齐度 { "score":#该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 }"Final_State_Similarity": #最终状态相似度 { "score": #该维度得分 "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "method": #使用何种算法计算 } "Failure_Mode_Diagnosis": #失败模式诊断 { "type": #指标类型分为VLM指标记为"VLM"和非VLM指标记为"Non-VLM" "primary_failure": #失败原因类型 "reason": #失败原因分析 } "overall_valid_score_normalized":#加权平均后综合分数 }

2.VLM和非VLM评测设计

VLM评测设计：

为避免单次 VLM 输出过长，本方案将 6 项 VLM 评估指标分为两组独立运行，裁判模型统一使用 gemini-3-flash-preview。若要求模型一次性返回全部 6 项指标的详细评分与理由，响应长度会显著增加，容易触发截断、格式错误或推理退化；拆成两组、分两次调用，可有效控制单次输出规模，提升评估的准确性与稳定性。

第一次调用：评测的指标为指令遵循度(Instruction_Following)、子目标完成度(Subgoal_Completion)、失败模式诊断(Failure_Mode_Dia），本次调用重点判断视频是否完成任务、完成到哪一步、失败原因是什么。

第二次调用：评测的指标为交互质量（Interaction_Quality）、接触合理性（Contact_Causality)、透视一致性（Perspectivity），该次调用重点判断机器人和物体的交互是否真实，物体运动是否由合理接触导致，以及视频中的 3D 结构是否稳定。

非VLM评测设计：

非 VLM 指标不依赖语言模型，主要通过视频算法计算。分为四个处理模块。

视频采样模块：对每个生成视频进行统一采样，例如：每段视频采样 8 / 16 / 32 帧，采样时，保持所有模型相同采样策略，统一分辨率，统一帧率或归一化时间轴。

检测与分割模块：用于提取机器人、末端执行器、目标物体、目标容器区域。可选的工具包括：GroundingDINO、SAM / SAM2、DINOv2 feature、CLIP / SigLIP feature、光流模型：如 RAFT / GMFlow、单目深度模型：如Depth Anything / MiDaS。

轨迹与运动模块：该模块用于计算轨迹准确性和运动平滑性指标，轨迹准确性指标由世界模型生成的视频和用于参考的成功视频的轨迹对齐计算得分，运动平滑性可基于光流或 bbox/mask center 的 jerk 计算得分。

特征相似度模块：该模块用于计算主体一致性，语义对齐度和最终状态相似度指标，其中，主体一致性关注主体在时间上的稳定性；语义对齐度关注生成视频和文本，参考视频的语义相似度；最终状态相似度关注生成视频最终状态是否接近成功状态。

`3.综合评分`

综合得分依据各维度在具身智能任务中的重要性进行加权计算。在评估体系中，任务完成度与物理交互是衡量模型性能的核心，被赋予最高权重；空间几何与运动轨迹作为支撑任务执行的基础，设为次要考察项；内容一致性则作为对整体生成质量的补充评估，权重最低。具体权重分配如下：

失败模式诊断指标不纳入总分，而是单独作为诊断维度输出，避免失败类型权重难以统一的问题。最后对失败模式诊断指标做聚类分析输出聚类点阵图，用于模型的主要失败类别评判。

`# 评测示例展示`

本次示例的被评世界模型为wan2.7-i2v-2026-04-25。首先获取世界模型输出视频，选取的任务场景为PnPBottleToCabinetClose（将瓶子放进橱柜后关闭柜门），输入首帧图片为：
输入提示词指令为：
    机械臂抓取地上的瓶子并将其抬起，将其移动至柜体开口前方。机械臂将机械手移至柜体内部开口正上方，将瓶子向下平移至柜体内，使瓶子落于柜体内部底板表面，随后释放瓶体。接着，右侧机械臂伸出并推动柜门至关闭位置。在整个序列过程中，机械手不发生任何结构性形变，仅其手指关节的屈伸角度发生变化；机械臂各关节的旋转运动严格遵循其固有机械结构；右侧机械臂的形态与关节配置与左侧机械臂完全一致；且相机视角保持完全不变。
wan2.7-i2v-2026-04-25输出视频：


用于参考的成功视频为：

注：作为参考的成功视频由真实机器人关节数据生成，而世界模型

输出的视频未考虑关节及现实物理信息，因此其良好的视觉效果并

不能代表在具身智能任务中的实际表现也同样优良。

其次将首帧图片、提示词、生成视频以及作为参考的真实视频，一并送入评测框架。

归一化后得到最终加权综合评分为0.776分：

{ "Instruction_Following": { "score": 5, "reason": "视频完整地展示了机械臂抓取地上的瓶子、将其放入柜子内部并释放，随后右侧机械臂出现并推动柜门关闭的过程，完全符合指令要求。", "type": "VLM" }, "Subgoal_Completion": { "score": 5, "reason": "机器人成功完成了从地面抓取瓶子、抬起、移动至柜子开口、放入柜内、释放瓶子以及最后由另一只机械臂关闭柜门的完整动作序列。", "subgoals": { "approach_object": true, "grasp_object": true, "lift_object": true, "transport_to_target": true, "place_into_target": true, "release_object": true, "close_container": true }, "type": "VLM" }, "Interaction_Quality": { "score": 4, "reason": "机械臂与瓶子的抓取、搬运和释放过程较为自然，但在瓶子放入柜子底板时，瓶身与柜子侧壁存在轻微的视觉重叠（穿模）现象。", "type": "VLM" }, "Contact_Causality": { "score": 5, "reason": "瓶子的所有运动（被抓取、抬起、平移、下落）均与机械手的接触和释放动作逻辑一致，柜门的关闭也由右侧机械臂的推动动作引起，物理因果关系清晰。", "type": "VLM" }, "Perspectivity": { "score": 5, "reason": "相机视角始终保持固定，场景中的柜子、盆栽、地面等背景元素在整个过程中保持了极高的空间一致性和透视稳定性。", "type": "VLM" }, "Depth_Accuracy": { "score": 4.6875, "type": "Non-VLM", "method": "Depth Anything based depth consistency evaluation" }, "Trajectory_Accuracy": { "score": 10.1, "type": "Non-VLM", "method": "Gripper trajectory comparison against reference trajectory" }, "Motion_Smoothness": { "score": 1.2890792333155299, "type": "Non-VLM", "method": "VFIMamba-based temporal motion smoothness evaluation" }, "Subject_Consistency": { "score": 0.0029521630500539318, "type": "Non-VLM", "method": "DINO/RAFT based subject consistency evaluation" }, "Semantic_Alignment": { "score": 0.904785, "type": "Non-VLM", "method": "Caption and CLIPScore based semantic alignment" }, "Final_State_Similarity": { "score": 0.632486, "type": "Non-VLM", "method": "Final-frame DINOv2/CLIP cosine similarity" }, "Failure_Mode_Diagnosis": { "primary_failure": "No Failure", "secondary_failures": [], "severity": "none", "reason": "任务所有子目标均已按指令要求顺利完成，未发现明显的物理或逻辑错误。", "type": "VLM" }, "overall_valid_score_normalized": 0.776}

# 测评邀请

时间规划

1.报名开始时间：2026年5月6日

2.测评结果发布：2026年5月底

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：EmbodiedCLUE-World「具身世界模型」测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

# 交流合作

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

具身智能世界模型评测方案发布|EmbodiedCLUE-World

1.基准设计特点

2.基准场景设计

`检测与分割模块：用于提取机器人、末端执行器、目标物体、目标容器区域。可选的工具包括：GroundingDINO、SAM / SAM2、DINOv2 feature、CLIP / SigLIP feature、光流模型：如 RAFT / GMFlow、单目深度模型：如Depth Anything / MiDaS。`

`轨迹与运动模块：该模块用于计算轨迹准确性和运动平滑性指标，轨迹准确性指标由世界模型生成的视频和用于参考的成功视频的轨迹对齐计算得分，运动平滑性可基于光流或 bbox/mask center 的 jerk 计算得分。`

`3.综合评分`

`# 评测示例展示`