手机助手GUI智能体测评6月榜单发布!AgentCLUE-Mobile

手机助手GUI智能体测评方案文章详见:
SuperCLUE,公众号:CLUE中文语言理解测评基准手机助手GUI智能体测评方案发布!AgentCLUE-Mobile
本次测评涵盖6款手机助手GUI智能体产品,测评对象聚焦于有智能体架构与配套模型的产品。详细报告如下。





1.基准场景
为建立公平、可量化的横向对标基准,我们提出AgentCLUE-Mobile手机助手Agent测评场景基准。该场景基准在统一的ADB手机交互环境与纯视觉输入条件下,通过标准化任务集与可复现的评分体系,从复杂意图拆解与动态规划、多模态GUI感知与理解、跨应用全链路执行三大维度,横向度量不同Agent在意图解析、视觉感知、长链路执行及异常恢复等维度的决策质量,精准剥离系统权限与工程封装带来的性能噪声,为Agent产品迭代与技术选型提供客观依据。详细场景设计如下:

其任务涉及覆盖了用户日常手机操作的高频场景,从第三方 App 的内容消费、社交互动到系统底层的硬件连接与设置,构成了手机助手 Agent 能力的完整评测版图。任务涉及到的应用如下:
2.题目分布
AgentCLUE-Mobile 评测基准设计标准化题目,覆盖三大一级维度与三种难度层级。难度呈“倒金字塔”结构,困难题目占比最高,简单与中等次之,以高难度任务为主,旨在拉开能力差距、暴露长链路执行中的状态丢失与异常恢复短板。维度上,“复杂意图拆解与动态规划”占比最高,涵盖显式/隐式指令、多意图并行与条件分支;“多模态GUI感知与理解”次之,覆盖文本语义、图标定位、控件状态与空间关系;“跨应用全链路执行”则聚焦数据迁移、长链路任务与通知栏跨应用场景。三大维度均衡配比,全面评估 Agent 的认知决策、视觉感知与执行闭环能力。其题目详细分布情况如下:

# 手机智能体与手机的交互方式
被评手机智能体采用"感知-决策-执行"闭环架构。用户以自然语言下发任务后,智能体基于当前屏幕截图进行视觉理解与任务规划,生成结构化动作指令(如应用启动、坐标点击、文本输入等);该指令经 ADB 传输至手机端执行,执行后的新截图回传智能体,形成"观察-决策-执行"的循环迭代,直至任务完成。整个链路中,ADB 承担统一执行接口,截图承担纯视觉感知输入,智能体则负责认知决策与动态规划。被评手机智能体设计如下所示:

# 评测流程介绍
本次评测采用 "视觉状态对比 + 单步模型初审 + 人工终审修正" 的人机协同裁判机制,由裁判模型逐帧判定每步动作有效性,再经人工结合全量截图与执行轨迹综合复核、修正存疑步骤,最终输出经人工校验的任务完成度得分。
评测需前置准备三类数据:

坐标标注处理(预处理):
1.判断该步是否涉及坐标操作(如 click、long_press、swipe 等)
有坐标:在该步截图(step_i.png)上标注坐标点,输出为 step_i_marked.png
无坐标(如全局操作 press_home、input_text 等):直接复制原图并重命名为 step_i_marked.png
2.所有 marked 图片统一归档,作为后续裁判模型的视觉输入。
裁判模型逐步评分(第一层:单步评判)
按步骤顺序循环迭代,由裁判模型对每一步进行独立打分:
输入内容:
普通步(i < n-1):题目 + step_i_marked.png(操作前标注图)+ step_(i+1).png(操作后状态图)+ 前 i 步历史评分结果
最后一步(i = n-1):题目 + step_n-1_marked.png(最后操作前标注图)+ true.png(最终标准状态图)+ 前 n-1 步历史评分结果
评分标准:
裁判模型基于视觉状态变化判断该步是否有效推进任务且执行正确,给出二元评分:
1 分:该步有效,操作正确,状态向目标推进
0 分:该步无效、错误或偏离目标
人工复核(人工终审)
全部步骤模型初审完成后,启动人工复核分支,对模型评分进行终审校验:
复核动作:
审阅全部步骤的裁判模型得分
结合截图与轨迹综合判断:人工对比每步操作前后的截图变化,参考执行轨迹中的动作类型、坐标、输入文本、思考过程、执行反馈
对存疑步骤进行人工修正:针对模型可能误判的步骤(如无效操作被判有效、有效操作因微小状态变化被漏判等)进行人工干预
输出评测报告
以经人工复核确认/修正后的最终得分为准,汇总计算并生成结构化报告:
1. 汇总得分计算
汇总得分计算
2. 评测报告内容
每步裁判原始得分:模型初审的 0/1 评分记录
人工复核与修正记录:列出被人工干预的步骤、修正原因及修正后得分
最终总分:经人工终审确认后的任务完成度得分
最终得分
每个手机智能体产品的最终得分为:总分计算
总分=Σ(每个题目得分) / 总题数 × 100%
总分计算
其流程展示如下:

1.总成绩格局:一家领跑、三家胶着、两家追赶
从总成绩来看,参评产品呈现出明显的梯队分化:
第一梯队(>90分):仅中兴gui手机智能体一家,以91.29分的绝对优势领跑,在全部评测维度中均保持首位,展现出接近商业可用水平的端到端能力。
第二梯队(65-75分):Open-AutoGLM(73.11)、Mobile-Agent-3.5(67.74)、MAI-UI(65.91) 形成胶着的中游集团,三者分差不足8分,但能力侧重各有不同。
第三梯队(<<60分):GELab-Zero(54.26) 与 UI-TARS(30.19) 处于追赶阶段,其中UI-TARS与榜首差距超过60分,反映出纯视觉驱动小模型在复杂手机交互场景下的能力瓶颈。

该双轴图从“结果”与“过程”两个维度评估各智能体。
中兴表现最佳:完成率93%,平均每题仅10.83步,既快又准。其每一步决策质量高,极少冗余或回退,已接近商用水平。
第二梯队(完成率56%–60%,步数差异大):Open-AutoGLM(60%/13.74步)、Mobile-Agent-3.5(59%/12.15步)、MAI-UI(56%/17.23步)。其中Mobile-Agent-3.5效率均衡;MAI-UI步数最多、完成率最低,存在大量无效操作,“做得很多但做对的少”。
第三梯队:GELab-Zero(35%/16.75步)与UI-TARS(18%/20.62步)均为低完成率、高步数。UI-TARS尤为典型,平均20.62步仅换回18%成功率,每11步才成功1次,陷入“步数越多、错误越多”的困境。
整体趋势:完成率越高,步数越少(如中兴);完成率越低,步数越多(如UI-TARS)。这说明实用化瓶颈不仅在于“能否做对”,更在于“多少步能做对”。提升单步决策质量、压缩无效操作,比单纯提高单步正确率更能优化用户体验。
热力图以颜色深浅展示6款智能体在7个维度上的得分分布(深绿=高分,浅红=低分)。
中兴:几乎所有维度得分均高于85分,端到端完成率93%,是唯一在简单、中等、困难、意图拆解、GUI感知、跨应用执行六个维度上均突破85分的产品,与第二梯队形成明显断层。
第二梯队:Open-AutoGLM与Mobile-Agent-3.5多数维度在60–80分,但在跨应用执行维度得分偏低(65.69/67.10),完成率也降至60%左右,说明认知与感知层有一定基础,但长链路执行环节仍是瓶颈。MAI-UI的得分差异更大:意图拆解(76.72)尚可,跨应用执行(50.79)与完成率(56%)明显偏低,认知强但执行弱。
第三梯队:GELab-Zero全部维度低于62分,完成率35%,整体能力较弱。UI-TARS除GUI感知(46.06)外,其余六个维度均低于31分,完成率仅18%,在所有维度上均处于低位,表明小规模纯视觉模型在复杂手机交互场景中尚难建立有效能力。
关键规律:同一产品各维度的得分均匀度与完成率高度相关。中兴各维度均衡→完成率93%;MAI-UI维度间落差大→完成率56%;UI-TARS整体低分→完成率18%。这说明端到端成功率受能力矩阵中最弱维度的拖累,尤其是跨应用执行等环节的短板直接影响最终结果。

# 对比示例展示
高德搜索'海底捞'并导航去最近一家,然后打开微信在'产品交流群'发位置共享。
手机初始状态:手机主屏幕
本题最终完成参考图true.png为:

{ "task_id": "batch_多意图并行识别_困难_9", "model_name": "", "instruction": "高德搜索'海底捞'并导航去最近一家,然后打开微信在'产品交流群'发位置共享", "screen_size": [ 1200, 2670 ], "total_steps": 15, "max_steps": 35, "hit_step_limit": false, "total_prompt_tokens": 0, "total_completion_tokens": 0, "total_tokens": 0, "steps": [ { "step_index": 1, "plan": "", "thought": "任务第一步是高德地图搜索'海底捞'并导航。当前处于手机桌面,需要先打开高德地图应用。虽然截图中未直接显示高德地图图标,但根据任务要求,应优先尝试打开该应用以开始后续操作。\n", "action_type": "open", "coordinate": null, "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_001.png", "coordinate_original": null, "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [], "interaction_content": "" }, { "step_index": 2, "plan": "", "thought": "当前处于高德地图主界面,任务第一步是搜索'海底捞',需要先点击搜索框进入搜索输入界面。搜索框位于屏幕中部,显示'查找地点、公交、地铁',点击该区域可激活搜索功能,之后才能输入目标关键词。\n", "action_type": "click", "coordinate": [ 427, 1548 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_002.png", "coordinate_original": [ 0.356, 0.58 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。" ], "interaction_content": "" }, { "step_index": 3, "plan": "", "thought": "当前处于高德地图搜索界面,搜索框已激活,键盘已弹出,下一步需输入目标关键词“海底捞”以继续完成任务。", "action_type": "type", "coordinate": null, "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_003.png", "coordinate_original": null, "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。" ], "interaction_content": "", "text": "海底捞" }, { "step_index": 4, "plan": "", "thought": "当前已输入“海底捞”并得到搜索结果列表,最近的是铂澜大象城店(1.7公里)。任务要求导航去最近一家,需先确认搜索结果,点击搜索按钮可刷新或确认结果,之后选择最近店铺进行导航。因此下一步点击搜索按钮。", "action_type": "click", "coordinate": [ 1080, 213 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_004.png", "coordinate_original": [ 0.9, 0.08 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。" ], "interaction_content": "" }, { "step_index": 5, "plan": "", "thought": "当前页面显示了海底捞搜索结果,但未按距离排序。任务要求导航到最近的一家,因此需要先点击'排序'按钮,将结果按距离从小到大排列,以便准确找到最近的门店。\n", "action_type": "click", "coordinate": [ 314, 525 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_005.png", "coordinate_original": [ 0.262, 0.197 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。" ], "interaction_content": "" }, { "step_index": 6, "plan": "", "thought": "当前处于排序菜单展开状态,任务需要导航到最近的门店,因此需选择距离优先排序。点击距离优先选项后,搜索结果将按距离重新排列,方便后续选择最近门店进行导航。", "action_type": "click", "coordinate": [ 154, 683 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_006.png", "coordinate_original": [ 0.129, 0.256 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。" ], "interaction_content": "" }, { "step_index": 7, "plan": "", "thought": "当前页面已按距离优先排序,第一个结果“海底捞火锅(铂澜大象城店)”直线距离1.7公里,是最近的门店。接下来需要点击该门店条目进入详情页,以便后续获取导航选项。\n", "action_type": "click", "coordinate": [ 691, 656 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_007.png", "coordinate_original": [ 0.576, 0.246 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。" ], "interaction_content": "" }, { "step_index": 8, "plan": "", "thought": "当前处于海底捞店铺详情页,任务要求导航到最近的海底捞,底部有“导航”按钮,点击该按钮可开始导航流程,符合任务需求。", "action_type": "click", "coordinate": [ 658, 2520 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_008.png", "coordinate_original": [ 0.549, 0.944 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。" ], "interaction_content": "" }, { "step_index": 9, "plan": "", "thought": "当前处于高德地图导航界面,导航任务已完成,接下来需要打开微信发送位置共享,因此先按Home键回到手机桌面,以便后续打开微信应用。", "action_type": "home", "coordinate": null, "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_009.png", "coordinate_original": null, "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。" ], "interaction_content": "" }, { "step_index": 10, "plan": "", "thought": "当前处于手机桌面,任务接下来需要打开微信在'产品交流群'发位置共享,所以要先打开微信应用。", "action_type": "open", "coordinate": null, "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_010.png", "coordinate_original": null, "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。" ], "interaction_content": "" }, { "step_index": 11, "plan": "", "thought": "当前处于微信聊天列表页面,任务要求在'产品交流群'发送位置共享,因此需要点击该群聊条目进入聊天界面。", "action_type": "click", "coordinate": [ 355, 1220 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_011.png", "coordinate_original": [ 0.296, 0.457 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。", "打开微信应用。" ], "interaction_content": "" }, { "step_index": 12, "plan": "", "thought": "当前处于产品交流群聊天界面,任务要求在群内发送位置共享。微信中发送位置需通过底部右侧加号按钮展开功能菜单,因此下一步点击该加号按钮以进入后续位置分享操作流程。", "action_type": "click", "coordinate": [ 1126, 2528 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_012.png", "coordinate_original": [ 0.939, 0.947 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。", "打开微信应用。", "点击“产品交流群” chat entry。" ], "interaction_content": "" }, { "step_index": 13, "plan": "", "thought": "当前处于微信聊天界面,底部扩展菜单已展开,可见“位置”选项。任务要求在群内发送位置共享,需点击该“位置”选项进入后续操作。", "action_type": "click", "coordinate": [ 1010, 2079 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_013.png", "coordinate_original": [ 0.842, 0.779 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。", "打开微信应用。", "点击“产品交流群” chat entry。", "点击屏幕右下角的加号按钮。" ], "interaction_content": "" }, { "step_index": 14, "plan": "", "thought": "任务要求在微信群发送位置共享,当前弹窗提供了“分享实时位置”选项,这与任务需求匹配,因此点击该选项即可完成位置共享操作。", "action_type": "click", "coordinate": [ 597, 2333 ], "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_014.png", "coordinate_original": [ 0.498, 0.874 ], "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。", "打开微信应用。", "点击“产品交流群” chat entry。", "点击屏幕右下角的加号按钮。", "点击底部扩展菜单中的“位置”选项。" ], "interaction_content": "" }, { "step_index": 15, "plan": "", "thought": "当前页面显示已在微信群内开启实时位置共享,屏幕顶部有“1人在共享位置”提示,结合任务指令要求的两个核心步骤(高德导航海底捞、微信发位置共享)均已完成,可判定任务已结束。", "action_type": "answer", "coordinate": null, "coordinate2": null, "reflector_outcome": null, "screenshot_after": "images/screenshot_step_015.png", "coordinate_original": null, "coordinate2_original": null, "prompt_tokens": null, "completion_tokens": null, "total_tokens": null, "operation_history": [ "打开高德地图应用。", "点击屏幕中部的搜索框,该搜索框显示“查找地点、公交、地铁”。", "输入文本“海底捞”。", "点击屏幕右上角的“搜索”按钮。", "点击筛选区域的“排序”按钮。", "点击排序菜单中的“距离优先”选项。", "点击第一个搜索结果“海底捞火锅(铂澜大象城店)”的条目区域。", "点击屏幕底部的“导航”按钮。", "按Home键。", "打开微信应用。", "点击“产品交流群” chat entry。", "点击屏幕右下角的加号按钮。", "点击底部扩展菜单中的“位置”选项。", "点击弹窗中的“分享实时位置”选项。" ], "interaction_content": "", "text": "报告任务完成。" } ], "final_screenshot": "images/screenshot_step_015.png"}
{ "meta": { "instruction": "高德搜索'海底捞'并导航去最近一家,然后打开微信在'产品交流群'发位置共享", "success_criteria": "", "model_name": "", "judge_model": "gemini-3-flash-preview", "evaluation_mode": "step_by_step_judge_no_gt" }, "overall_score": 100.0, "overall_category": "perfect", "overall_reason": "共 15 步,正确 15 步,得分 100.0。", "step_scores": [ { "step_index": 1, "score": 1, "reason": "该步骤动作为 open,目标是打开高德地图。对比 before 和 after 截图:(1) before 截图为手机桌面,未见高德地图图标,说明该应用可能在其他分页或通过系统指令打开;(2) after 截图显示已成功进入高德地图应用界面,当前定位在‘古荡新村西’,且搜索框已就绪;(3) 该操作是完成‘高德搜索海底捞’任务的必要第一步,动作执行准确且有效推进了任务。虽然 before 图上没有物理点击的红点,但对于 open 类系统指令,页面跳转成功即视为操作正确。综上所述,判定为 1 分。", "action_type": "open", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"该步骤动作为 open,目标是打开高德地图。对比 before 和 after 截图:(1) before 截图为手机桌面,未见高德地图图标,说明该应用可能在其他分页或通过系统指令打开;(2) after 截图显示已成功进入高德地图应用界面,当前定位在‘古荡新村西’,且搜索框已就绪;(3) 该操作是完成‘高德搜索海底捞’任务的必要第一步,动作执行准确且有效推进了任务。虽然 before 图上没有物理点击的红点,但对于 open 类系统指令,页面跳转成功即视为操作正确。综上所述,判定为 1 分。\"\n}\n```" }, { "step_index": 2, "score": 1, "reason": "(1) 标注位置准确落在了高德地图主界面的搜索框(“查找地点、公交、地铁”)中心区域;(2) 对比 before 和 after 截图,页面从地图主页成功跳转到了搜索输入页面,出现了搜索历史记录和分类快捷按钮;(3) 这一步是搜索“海底捞”的必经步骤,直接向任务目标推进;(4) 该操作逻辑正确,无冗余;(5) 综上所述,判定为有效推进步,给 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置准确落在了高德地图主界面的搜索框(“查找地点、公交、地铁”)中心区域;(2) 对比 before 和 after 截图,页面从地图主页成功跳转到了搜索输入页面,出现了搜索历史记录和分类快捷按钮;(3) 这一步是搜索“海底捞”的必经步骤,直接向任务目标推进;(4) 该操作逻辑正确,无冗余;(5) 综上所述,判定为有效推进步,给 1 分。\"\n}\n```" }, { "step_index": 3, "score": 1, "reason": "在 before 截图中,应用处于搜索输入界面,搜索框内显示默认提示词。在 after 截图中,搜索框内成功输入了目标文本『海底捞』,并且页面下方实时加载并显示了相关的搜索结果列表(如铂澜大象城店等)。这一变化准确地执行了搜索指令,是完成导航任务的关键步骤,属于有效推进。因此判定为 1 分。", "action_type": "type", "raw_output": "```{\n \"score\": 1,\n \"reason\": \"在 before 截图中,应用处于搜索输入界面,搜索框内显示默认提示词。在 after 截图中,搜索框内成功输入了目标文本『海底捞』,并且页面下方实时加载并显示了相关的搜索结果列表(如铂澜大象城店等)。这一变化准确地执行了搜索指令,是完成导航任务的关键步骤,属于有效推进。因此判定为 1 分。\"\n}\n```" }, { "step_index": 4, "score": 1, "reason": "在 before 截图中,红点准确落在了搜索框右侧的‘搜索’按钮上。对比 after 截图,页面从搜索建议列表成功跳转到了详细的搜索结果展示页,出现了筛选标签(综合、优惠、笔记)以及带有详细信息的店铺卡片。这一步是确认搜索请求并获取完整结果列表的必要操作,有效推进了寻找最近‘海底捞’并进行导航的任务目标。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 before 截图中,红点准确落在了搜索框右侧的‘搜索’按钮上。对比 after 截图,页面从搜索建议列表成功跳转到了详细的搜索结果展示页,出现了筛选标签(综合、优惠、笔记)以及带有详细信息的店铺卡片。这一步是确认搜索请求并获取完整结果列表的必要操作,有效推进了寻找最近‘海底捞’并进行导航的任务目标。\"\n}\n```" }, { "step_index": 5, "score": 1, "reason": "(1) 标注位置准确落在了搜索结果页顶部的“排序”筛选按钮上;(2) 对比 before 和 after 截图,页面成功弹出了排序选项菜单,包括“距离优先”、“人气优先”等选项;(3) 任务要求导航去最近的一家,点击排序按钮以选择“距离优先”是定位最近门店的必要且合理的逻辑步骤;(4) 该操作有效推进了任务,判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置准确落在了搜索结果页顶部的“排序”筛选按钮上;(2) 对比 before 和 after 截图,页面成功弹出了排序选项菜单,包括“距离优先”、“人气优先”等选项;(3) 任务要求导航去最近的一家,点击排序按钮以选择“距离优先”是定位最近门店的必要且合理的逻辑步骤;(4) 该操作有效推进了任务,判定为 1 分。\"\n}\n```" }, { "step_index": 6, "score": 1, "reason": "根据 before 截图,红点准确落在了排序菜单中的“距离优先”选项上。对比 after 截图,页面发生了显著且符合预期的变化:排序菜单已收起,顶部的筛选按钮文字从“排序”变更为“距离优先”,且下方的搜索结果列表已按距离重新排列(第一项显示为直线1.7公里)。这一步骤是完成“导航去最近一家”任务目标的必要环节,操作精准且有效推进了任务,因此判定为 1 分。", "action_type": "click", "raw_output": "```{\n \"score\": 1,\n \"reason\": \"根据 before 截图,红点准确落在了排序菜单中的“距离优先”选项上。对比 after 截图,页面发生了显著且符合预期的变化:排序菜单已收起,顶部的筛选按钮文字从“排序”变更为“距离优先”,且下方的搜索结果列表已按距离重新排列(第一项显示为直线1.7公里)。这一步骤是完成“导航去最近一家”任务目标的必要环节,操作精准且有效推进了任务,因此判定为 1 分。\"\n}" }, { "step_index": 7, "score": 1, "reason": "在 before 截图中,红点标注位置准确落在了搜索结果列表的第一项,即距离最近的‘海底捞火锅(铂澜大象城店)’条目上。对比 after 截图,页面成功从搜索结果列表跳转到了该门店的详情展示页,显示了门店的具体地址、评分、团购信息以及底部的‘导航’和‘路线’按钮。这一步是获取导航选项的必要环节,有效推进了任务目标,因此判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 before 截图中,红点标注位置准确落在了搜索结果列表的第一项,即距离最近的‘海底捞火锅(铂澜大象城店)’条目上。对比 after 截图,页面成功从搜索结果列表跳转到了该门店的详情展示页,显示了门店的具体地址、评分、团购信息以及底部的‘导航’和‘路线’按钮。这一步是获取导航选项的必要环节,有效推进了任务目标,因此判定为 1 分。\"\n}\n```" }, { "step_index": 8, "score": 1, "reason": "在 before 截图中,红点标注位置准确落在了页面底部的“导航”按钮上。对比 after 截图,页面发生了显著变化,成功从店铺详情页跳转到了实时导航界面,显示了具体的行驶路线规划和语音提示(‘请行驶到北门’)。该操作直接响应了任务中‘导航去最近一家’的要求,是任务流程中的核心必要步骤,判定为有效推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 before 截图中,红点标注位置准确落在了页面底部的“导航”按钮上。对比 after 截图,页面发生了显著变化,成功从店铺详情页跳转到了实时导航界面,显示了具体的行驶路线规划和语音提示(‘请行驶到北门’)。该操作直接响应了任务中‘导航去最近一家’的要求,是任务流程中的核心必要步骤,判定为有效推进。\"\n}\n```" }, { "step_index": 9, "score": 1, "reason": "(1) 本步骤动作为 home,before 截图上无标注,符合该动作类型的评测规范;(2) 对比 before 和 after 截图,页面从高德地图的实时导航界面成功跳转到了手机主屏幕(桌面);(3) 任务的下一阶段目标是打开微信并发送位置,回到桌面是寻找并启动微信应用的合理且必要的步骤;(4) 该操作成功实现了页面切换,为后续操作提供了基础,属于有效推进;(5) 最终判定为 1 分。", "action_type": "home", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 本步骤动作为 home,before 截图上无标注,符合该动作类型的评测规范;(2) 对比 before 和 after 截图,页面从高德地图的实时导航界面成功跳转到了手机主屏幕(桌面);(3) 任务的下一阶段目标是打开微信并发送位置,回到桌面是寻找并启动微信应用的合理且必要的步骤;(4) 该操作成功实现了页面切换,为后续操作提供了基础,属于有效推进;(5) 最终判定为 1 分。\"\n}\n```" }, { "step_index": 10, "score": 1, "reason": "(1) 标注位置分析:本步骤动作为 open,before 截图上无红点标注,符合通过系统指令直接打开应用的逻辑;(2) before/after 截图变化:对比两张截图,页面从手机主屏幕成功跳转到了微信的应用主界面(消息列表页);(3) 任务相关性:任务要求在微信的“产品交流群”中分享位置,打开微信是完成该目标的必要前提;(4) 冗余性:该步骤是执行后续操作的必经环节,无冗余;(5) 最终结论:动作执行成功,有效推进了任务进度。", "action_type": "open", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:本步骤动作为 open,before 截图上无红点标注,符合通过系统指令直接打开应用的逻辑;(2) before/after 截图变化:对比两张截图,页面从手机主屏幕成功跳转到了微信的应用主界面(消息列表页);(3) 任务相关性:任务要求在微信的“产品交流群”中分享位置,打开微信是完成该目标的必要前提;(4) 冗余性:该步骤是执行后续操作的必经环节,无冗余;(5) 最终结论:动作执行成功,有效推进了任务进度。\"\n}\n```" }, { "step_index": 11, "score": 1, "reason": "(1) 标注位置分析:在 before 截图中,红点准确落在了微信消息列表中的“产品交流群”条目上;(2) 像素变化描述:对比 after 截图,页面成功从消息列表跳转到了“产品交流群”的聊天对话界面,标题栏显示为“产品交流群(2)”;(3) 任务相关性:该步骤是任务要求“在‘产品交流群’发位置共享”的必要前提,属于核心路径;(4) 冗余性判断:该操作直接推进了任务,无任何冗余;(5) 结论:操作准确且有效,给 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:在 before 截图中,红点准确落在了微信消息列表中的“产品交流群”条目上;(2) 像素变化描述:对比 after 截图,页面成功从消息列表跳转到了“产品交流群”的聊天对话界面,标题栏显示为“产品交流群(2)”;(3) 任务相关性:该步骤是任务要求“在‘产品交流群’发位置共享”的必要前提,属于核心路径;(4) 冗余性判断:该操作直接推进了任务,无任何冗余;(5) 结论:操作准确且有效,给 1 分。\"\n}\n```" }, { "step_index": 12, "score": 1, "reason": "根据对 before 和 after 截图的像素对比分析:(1) 在 before 截图中,红点标注位置准确落在了微信聊天界面右下角的“+”号功能展开按钮上;(2) 对比 after 截图,页面下方成功弹出了功能菜单,显示了“相册”、“拍摄”、“语音通话”、“位置”等功能图标;(3) 任务要求在群内发送位置共享,点击“+”号以调出“位置”功能是必经的正确操作路径;(4) 该步骤有效推进了任务目标,且无冗余;(5) 因此判定该步骤为有效推进步,给 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"根据对 before 和 after 截图的像素对比分析:(1) 在 before 截图中,红点标注位置准确落在了微信聊天界面右下角的“+”号功能展开按钮上;(2) 对比 after 截图,页面下方成功弹出了功能菜单,显示了“相册”、“拍摄”、“语音通话”、“位置”等功能图标;(3) 任务要求在群内发送位置共享,点击“+”号以调出“位置”功能是必经的正确操作路径;(4) 该步骤有效推进了任务目标,且无冗余;(5) 因此判定该步骤为有效推进步,给 1 分。\"\n}\n```" }, { "step_index": 13, "score": 1, "reason": "(1) 标注位置分析:在 before 截图中,红点(带有箭头的红色空心圆环)准确落在了微信聊天界面底部功能面板的“位置”图标中心;(2) before/after 截图的像素变化描述:对比 after 截图,页面成功弹出了位置功能的二级选择菜单,显示了“发送位置”和“共享实时位置”两个选项;(3) 该变化与任务目标高度相关,因为任务要求在群内“发位置共享”,点击此图标是进入位置分享功能的必经步骤;(4) 该步骤属于标准操作路径,无冗余;(5) 综上所述,该步骤有效推进了任务,判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:在 before 截图中,红点(带有箭头的红色空心圆环)准确落在了微信聊天界面底部功能面板的“位置”图标中心;(2) before/after 截图的像素变化描述:对比 after 截图,页面成功弹出了位置功能的二级选择菜单,显示了“发送位置”和“共享实时位置”两个选项;(3) 该变化与任务目标高度相关,因为任务要求在群内“发位置共享”,点击此图标是进入位置分享功能的必经步骤;(4) 该步骤属于标准操作路径,无冗余;(5) 综上所述,该步骤有效推进了任务,判定为 1 分。\"\n}\n```" }, { "step_index": 14, "score": 1, "reason": "(1) 标注位置分析:在 before 截图中,红点(带有箭头的红色空心圆环)准确落在了弹窗菜单中的“共享实时位置”选项中心;(2) before/after 截图的像素变化描述:对比 after 截图,页面发生了显著且符合预期的变化,成功从功能选择弹窗跳转到了实时的地图位置共享界面,屏幕上方出现了“1 人在共享位置”的状态栏,地图上显示了用户头像;(3) 该变化与任务要求“在'产品交流群'发位置共享”的目标完全一致;(4) 该步骤是执行位置共享功能的必要操作,非冗余;(5) 综上所述,该步骤有效推进了任务,给 1 分。", "action_type": "click", "raw_output": "```{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:在 before 截图中,红点(带有箭头的红色空心圆环)准确落在了弹窗菜单中的“共享实时位置”选项中心;(2) before/after 截图的像素变化描述:对比 after 截图,页面发生了显著且符合预期的变化,成功从功能选择弹窗跳转到了实时的地图位置共享界面,屏幕上方出现了“1 人在共享位置”的状态栏,地图上显示了用户头像;(3) 该变化与任务要求“在'产品交流群'发位置共享”的目标完全一致;(4) 该步骤是执行位置共享功能的必要操作,非冗余;(5) 综上所述,该步骤有效推进了任务,给 1 分。\"\n}```" }, { "step_index": 15, "score": 1, "reason": "(1) 标注位置分析:本步骤动作为 answer,无红点标注,表示模型认为任务已完成;(2) before/after 截图的像素变化描述:对比 before 和 after 截图,页面保持在微信实时位置共享界面,没有发生像素变化,符合 answer 动作的预期;(3) 任务目标相关性:before 截图显示当前已处于微信“产品交流群”的实时位置共享状态(顶部显示“1人在共享位置”),且之前的步骤已完成了高德地图导航至海底捞的操作,任务指令的所有要求均已达成;(4) 冗余性分析:该步骤为宣告任务结束的必要环节,非冗余;(5) 最终给分结论:任务已成功完成,给 1 分。", "action_type": "answer", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:本步骤动作为 answer,无红点标注,表示模型认为任务已完成;(2) before/after 截图的像素变化描述:对比 before 和 after 截图,页面保持在微信实时位置共享界面,没有发生像素变化,符合 answer 动作的预期;(3) 任务目标相关性:before 截图显示当前已处于微信“产品交流群”的实时位置共享状态(顶部显示“1人在共享位置”),且之前的步骤已完成了高德地图导航至海底捞的操作,任务指令的所有要求均已达成;(4) 冗余性分析:该步骤为宣告任务结束的必要环节,非冗余;(5) 最终给分结论:任务已成功完成,给 1 分。\"\n}\n```" } ]}
{ "task": "高德搜索'海底捞'并导航去最近一家,然后打开微信在'产品交流群'发位置共享", "total_steps": 13, "total_prompt_tokens": 0, "total_completion_tokens": 0, "total_tokens": 0, "steps": [ { "step": 1, "action": "awake", "plan": "", "thought": "我看到的是手机主屏幕。任务的第一步是使用高德地图搜索'海底捞'。因此,我需要先打开高德地图应用。我将使用`AWAKE`动作来启动它。执行后,我预期会看到高德地图的界面。", "coordinate": null, "coordinate_original": null, "coordinate2": null, "coordinate2_original": null, "text": "高德地图", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_1.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要先打开高德地图应用,才能开始执行搜索和导航的任务。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。当前正准备开始第一步:打开高德地图应用。" }, { "step": 2, "action": "click", "plan": "", "thought": "我看到当前是高德地图的主界面。任务的第一步是搜索'海底捞'。为了开始搜索,我需要先点击界面上方的搜索框。这个搜索框里有提示文字'查找地点、公交、地铁'。点击它之后,我预期会进入一个可以输入文字的搜索页面。", "coordinate": [ 416, 1559 ], "coordinate_original": [ 0.346667, 0.583895 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_2.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击搜索框,以便输入'海底捞'来查找目的地。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功打开高德地图,下一步是进行搜索。" }, { "step": 3, "action": "type", "plan": "", "thought": "我看到当前界面是高德地图的搜索页面,键盘已经弹出,光标在搜索框内闪烁。任务的下一步是搜索'海底捞'。因此,我需要在搜索框中输入'海底捞'。我将执行一个TYPE动作来完成输入。执行后,我预期搜索框中会显示'海底捞',并且下方会列出相关的搜索结果。", "coordinate": null, "coordinate_original": null, "coordinate2": null, "coordinate2_original": null, "text": "海底捞", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_3.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要在搜索框中输入'海底捞',以查找附近的海底捞门店。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功打开高德地图并激活了搜索框,下一步是在搜索框中输入'海底捞'。" }, { "step": 4, "action": "click", "plan": "", "thought": "我看到当前界面是高德地图的搜索结果页,列出了多家海底捞火锅店。任务要求是导航到最近的一家。我需要比较这些店铺的距离。通过观察,我发现“海底捞火锅(杭州城西银泰城店)”的距离是2.5公里,是当前屏幕上最近的。因此,我下一步应该点击这家店,进入其详情页面,以便后续进行导航操作。", "coordinate": [ 465, 1401 ], "coordinate_original": [ 0.3875, 0.524719 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_4.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击距离最近的“海底捞火锅(杭州城西银泰城店)”,以进入店铺详情页并开始导航。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功搜索到多家海底捞门店,下一步是选择最近的一家进行导航。" }, { "step": 5, "action": "click", "plan": "", "thought": "我看到当前界面是海底捞的详情页。根据任务计划,我已经完成了搜索和选择门店的步骤。下一步是开始导航。我观察到屏幕底部有一个明显的“导航”按钮,点击它就可以启动导航功能。因此,我决定点击这个按钮。", "coordinate": [ 754, 2533 ], "coordinate_original": [ 0.628333, 0.948689 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_5.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击“导航”按钮来启动前往海底捞的路线规划。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功选择最近的海底捞门店,下一步是启动导航。" }, { "step": 6, "action": "awake", "plan": "", "thought": "我看到当前界面是高德地图的导航模式。根据任务计划,我已经完成了在高德地图中的导航部分。下一步是打开微信。因此,我需要执行一个系统级的唤醒操作来启动微信应用。", "coordinate": null, "coordinate_original": null, "coordinate2": null, "coordinate2_original": null, "text": "微信", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_6.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要打开微信应用,以便执行任务的第二部分:在'产品交流群'中发送位置共享指令。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功启动导航,下一步是打开微信应用。" }, { "step": 7, "action": "click", "plan": "", "thought": "我看到当前界面是微信的聊天列表。根据任务计划,在完成高德地图的导航后,我需要打开微信并进入'产品交流群'。我已经成功打开了微信,现在我需要在列表中找到并点击'产品交流群'。我看到这个群聊在屏幕上,因此我将点击它。", "coordinate": [ 360, 1244 ], "coordinate_original": [ 0.3, 0.465918 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_7.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击'产品交流群',以进入该群聊,为下一步发送位置共享做准备。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功打开微信,下一步是进入'产品交流群'。" }, { "step": 8, "action": "click", "plan": "", "thought": "我看到当前界面是'产品交流群'的聊天窗口。根据任务计划,我已经完成了进入群聊的步骤,下一步是发送位置共享。要发送位置,我需要先点击右下角的'+'号按钮来展开功能菜单。我观察到这个按钮在屏幕的右下角。", "coordinate": [ 1125, 2536 ], "coordinate_original": [ 0.9375, 0.949813 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_8.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击'+'号按钮来打开功能菜单,以便找到并选择'位置共享'功能。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功进入'产品交流群',下一步是发送位置共享。" }, { "step": 9, "action": "click", "plan": "", "thought": "我看到当前界面是微信的聊天窗口,并且已经展开了功能菜单。任务的最后一步是在这个群聊里发送位置共享。为了实现这个目标,我需要从菜单中选择'位置'选项。我观察到'位置'按钮在界面的右上角,我会点击它。点击后,我预期会看到一个地图界面,让我选择要分享的位置。", "coordinate": [ 1018, 1890 ], "coordinate_original": [ 0.848333, 0.707865 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_9.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击'位置'按钮,以进入位置选择界面,从而完成发送位置共享的任务。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功进入'产品交流群'并打开了功能菜单,下一步是选择'位置'选项来发送位置共享。" }, { "step": 10, "action": "click", "plan": "", "thought": "我看到当前界面底部弹出了一个菜单,提供了'发送位置'和'共享实时位置'两个选项。我的任务目标是发送一个固定的位置,而不是实时共享。因此,我需要点击'发送位置'这个选项来继续任务。点击后,我预期会进入一个地图界面,让我选择要发送的具体位置。", "coordinate": [ 615, 2173 ], "coordinate_original": [ 0.5125, 0.813858 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_10.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击'发送位置',因为这是完成发送固定位置任务的正确步骤。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功进入'产品交流群'并打开了位置发送菜单,下一步是选择发送固定位置。" }, { "step": 11, "action": "click", "plan": "", "thought": "我看到当前界面是高德地图的位置选择页面。根据任务进度,我已经完成了在微信中选择'产品交流群'并打开位置发送菜单的步骤。现在,我需要选择一个位置来发送。列表中的第一个选项'西湖区高新文教区嘉绿文苑西园'是当前地图上选定的位置,点击它就可以完成位置的发送。这是完成任务的最后一步操作。", "coordinate": [ 597, 2005 ], "coordinate_original": [ 0.4975, 0.750936 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_11.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击列表中的第一个位置选项,以将其发送到微信群聊中,从而完成整个任务。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功进入'产品交流群'并打开了位置发送菜单,下一步是选择并发送固定位置。" }, { "step": 12, "action": "click", "plan": "", "thought": "我看到当前界面是高德地图的位置选择页面。根据任务要求,我需要选择一个位置来发送。列表中的第一个选项“西湖区高新文教区嘉绿文苑西园(嘉绿横路南)”已经被选中,并且有一个绿色的对勾。为了完成位置共享,我需要点击右上角的绿色“发送”按钮。", "coordinate": [ 1060, 205 ], "coordinate_original": [ 0.883333, 0.076779 ], "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_12.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我需要点击“发送”按钮,以确认并分享当前选中的位置给微信群聊。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。目前已成功进入'产品交流群'并打开了位置发送菜单,下一步是选择并发送固定位置。" }, { "step": 13, "action": "complete", "plan": "", "thought": "我看到当前界面是微信的'产品交流群',并且已经成功发送了一个位置信息。回顾我的任务清单,所有子目标,包括打开高德地图、搜索'海底捞'、导航到最近的一家、打开微信、进入群聊以及发送位置,都已标记为成功。既然所有步骤都已完成,我认为现在应该结束任务了。", "coordinate": null, "coordinate_original": null, "coordinate2": null, "coordinate2_original": null, "text": "", "button": "", "direction": "", "status": "", "screenshot_after": "images/screenshot_step_13.png", "prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0, "explain": "我已经完成了所有任务步骤,包括在微信中成功发送了位置信息,因此我将结束本次操作。", "summary": "任务目标是使用高德地图搜索'海底捞'并导航,然后在微信中分享位置。所有步骤均已成功完成。" } ]}
{ "meta": { "instruction": "高德搜索'海底捞'并导航去最近一家,然后打开微信在'产品交流群'发位置共享", "success_criteria": "", "model_name": "", "judge_model": "gemini-3-flash-preview", "evaluation_mode": "step_by_step_judge_no_gt" }, "overall_score": 53.85, "overall_category": "poor", "overall_reason": "共 13 步,正确 7 步,得分 53.85。", "step_scores": [ { "step_index": 1, "score": 1, "reason": "1. 动作类型为 open,旨在打开高德地图应用。2. before 截图显示手机处于桌面状态,after 截图显示已成功进入高德地图的主界面。3. 虽然 before 截图上没有显示点击红点(open 动作通常通过系统指令直接启动应用,无需点击图标),但 after 截图的像素变化明确证实了应用已成功打开。4. 打开高德地图是完成‘搜索海底捞并导航’这一任务目标的必要且合理的第一步。5. 该步骤实现了从桌面到目标应用的有效跳转,属于有效推进,判定为 1 分。", "action_type": "open", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"1. 动作类型为 open,旨在打开高德地图应用。2. before 截图显示手机处于桌面状态,after 截图显示已成功进入高德地图的主界面。3. 虽然 before 截图上没有显示点击红点(open 动作通常通过系统指令直接启动应用,无需点击图标),但 after 截图的像素变化明确证实了应用已成功打开。4. 打开高德地图是完成‘搜索海底捞并导航’这一任务目标的必要且合理的第一步。5. 该步骤实现了从桌面到目标应用的有效跳转,属于有效推进,判定为 1 分。\"\n}\n```" }, { "step_index": 2, "score": 1, "reason": "在 before 截图中,人为标注的红点圆心准确落在高德地图主界面的搜索框(显示‘查找地点、公交、地铁’)上。对比 after 截图,界面成功跳转到了搜索输入页面,并且弹出了软键盘,这完全符合点击搜索框后的预期行为。该步骤是搜索‘海底捞’并完成后续导航任务的必要且有效的起始步骤,因此判定为有效推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 before 截图中,人为标注的红点圆心准确落在高德地图主界面的搜索框(显示‘查找地点、公交、地铁’)上。对比 after 截图,界面成功跳转到了搜索输入页面,并且弹出了软键盘,这完全符合点击搜索框后的预期行为。该步骤是搜索‘海底捞’并完成后续导航任务的必要且有效的起始步骤,因此判定为有效推进。\"\n}\n```" }, { "step_index": 3, "score": 1, "reason": "动作类型为 type,输入文本为 '海底捞'。对比 before 和 after 截图,可以看到 after 截图的搜索框中成功输入了 '海底捞',并且下方出现了相关的搜索结果列表。这一步是搜索目标地点的关键步骤,有效推进了任务。符合 type 类动作的评测标准。", "action_type": "type", "raw_output": "```{\n \"score\": 1,\n \"reason\": \"动作类型为 type,输入文本为 '海底捞'。对比 before 和 after 截图,可以看到 after 截图的搜索框中成功输入了 '海底捞',并且下方出现了相关的搜索结果列表。这一步是搜索目标地点的关键步骤,有效推进了任务。符合 type 类动作的评测标准。\"\n}```" }, { "step_index": 4, "score": 0, "reason": "任务指令明确要求导航去‘最近一家’海底捞。通过观察before截图中的搜索结果列表,第一项‘海底捞火锅(铂澜大象城店)’距离为1.7公里,第三项‘海底捞火锅(杭州古墩路印象...)’距离为2.2公里,而标注红点点击的是第四项‘海底捞火锅(杭州城西银泰城店)’,其距离显示为2.5公里。模型在思考过程中错误地声称2.5公里是‘当前屏幕上最近的’,这与截图中的事实不符。虽然点击操作导致页面跳转到了店铺详情页(after截图),但由于该操作违反了指令中‘最近一家’的关键约束条件,属于错误的目标选择,未能有效推进特定任务目标的正确执行。因此判定为0分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"任务指令明确要求导航去‘最近一家’海底捞。通过观察before截图中的搜索结果列表,第一项‘海底捞火锅(铂澜大象城店)’距离为1.7公里,第三项‘海底捞火锅(杭州古墩路印象...)’距离为2.2公里,而标注红点点击的是第四项‘海底捞火锅(杭州城西银泰城店)’,其距离显示为2.5公里。模型在思考过程中错误地声称2.5公里是‘当前屏幕上最近的’,这与截图中的事实不符。虽然点击操作导致页面跳转到了店铺详情页(after截图),但由于该操作违反了指令中‘最近一家’的关键约束条件,属于错误的目标选择,未能有效推进特定任务目标的正确执行。因此判定为0分。\"\n}\n```" }, { "step_index": 5, "score": 0, "reason": "任务指令明确要求导航去‘最近一家’海底捞。根据历史评测结果(Step 4),模型在搜索结果中选择的是距离 3 公里的‘杭州城西银泰城店’,而忽略了距离更近(1.7 公里)的门店,因此 Step 4 已被判定为错误。当前步骤(Step 5)是在该错误门店的详情页点击‘导航’按钮。虽然 before 截图中的红点精准落在了‘导航’按钮上,且 after 截图显示成功进入了导航界面,但由于导航的目的地并非指令要求的‘最近一家’,该步骤是在错误路径上的延伸,并未向‘导航去最近一家’这一正确任务目标推进。根据‘向最终正确结果推进’的评判标准,该步骤属于无效推进,故判定为 0 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"任务指令明确要求导航去‘最近一家’海底捞。根据历史评测结果(Step 4),模型在搜索结果中选择的是距离 3 公里的‘杭州城西银泰城店’,而忽略了距离更近(1.7 公里)的门店,因此 Step 4 已被判定为错误。当前步骤(Step 5)是在该错误门店的详情页点击‘导航’按钮。虽然 before 截图中的红点精准落在了‘导航’按钮上,且 after 截图显示成功进入了导航界面,但由于导航的目的地并非指令要求的‘最近一家’,该步骤是在错误路径上的延伸,并未向‘导航去最近一家’这一正确任务目标推进。根据‘向最终正确结果推进’的评判标准,该步骤属于无效推进,故判定为 0 分。\"\n}\n```" }, { "step_index": 6, "score": 1, "reason": "该步骤执行的是 open 动作,旨在打开微信应用。对比 before 和 after 截图,可以看到系统成功从高德地图的导航界面切换到了微信的消息列表界面。虽然之前的步骤中选择的海底捞门店并非最近的一家(导致 Step 4 和 Step 5 评分为 0),但从任务整体逻辑来看,在启动导航后切换到微信以执行后续的‘位置共享’指令是必要且正确的操作路径。该步骤成功实现了应用跳转,为后续在‘产品交流群’中分享位置奠定了基础,属于有效推进。", "action_type": "open", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"该步骤执行的是 open 动作,旨在打开微信应用。对比 before 和 after 截图,可以看到系统成功从高德地图的导航界面切换到了微信的消息列表界面。虽然之前的步骤中选择的海底捞门店并非最近的一家(导致 Step 4 和 Step 5 评分为 0),但从任务整体逻辑来看,在启动导航后切换到微信以执行后续的‘位置共享’指令是必要且正确的操作路径。该步骤成功实现了应用跳转,为后续在‘产品交流群’中分享位置奠定了基础,属于有效推进。\"\n}\n```" }, { "step_index": 7, "score": 1, "reason": "在 Step 7 中,动作目标是进入微信的‘产品交流群’。通过对比 before 截图,可以看到人为标注的红点圆心准确地落在了聊天列表中的‘产品交流群’条目上。对比 after 截图,界面成功从消息列表跳转到了该群聊的对话窗口(标题显示为‘产品交流群(2)’)。这一步是完成任务指令中‘在产品交流群发位置共享’的必要前提,操作准确且有效推进了任务,因此判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 7 中,动作目标是进入微信的‘产品交流群’。通过对比 before 截图,可以看到人为标注的红点圆心准确地落在了聊天列表中的‘产品交流群’条目上。对比 after 截图,界面成功从消息列表跳转到了该群聊的对话窗口(标题显示为‘产品交流群(2)’)。这一步是完成任务指令中‘在产品交流群发位置共享’的必要前提,操作准确且有效推进了任务,因此判定为 1 分。\"\n}\n```" }, { "step_index": 8, "score": 1, "reason": "在 before 截图中,人为标注的红点圆心准确地落在了微信聊天界面右下角的“+”号功能按钮上。对比 after 截图,可以看到界面下方成功弹出了功能菜单栏,展示了“相册”、“拍摄”、“语音通话”、“位置”等功能图标。这一步是实现任务指令中“发送位置共享”目标的必要操作,动作执行准确且产生了预期的界面变化,因此判定为有效推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 before 截图中,人为标注的红点圆心准确地落在了微信聊天界面右下角的“+”号功能按钮上。对比 after 截图,可以看到界面下方成功弹出了功能菜单栏,展示了“相册”、“拍摄”、“语音通话”、“位置”等功能图标。这一步是实现任务指令中“发送位置共享”目标的必要操作,动作执行准确且产生了预期的界面变化,因此判定为有效推进。\"\n}\n```" }, { "step_index": 9, "score": 1, "reason": "1. 标注位置落点分析:在 before 截图中,人为标注的红点圆心准确落在了微信聊天功能菜单中的“位置”图标上。\n2. 截图变化描述:对比 after 截图,界面下方成功弹出了位置相关的二级菜单,提供了“发送位置”和“共享实时位置”两个选项。\n3. 任务目标相关性:任务指令要求在群聊中“发位置共享”,点击“位置”图标是开启该功能的必要前置步骤。\n4. 冗余性判断:该步骤逻辑正确,直接指向任务目标,无任何冗余。\n5. 最终给分结论:操作准确且有效推进了任务,判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"1. 标注位置落点分析:在 before 截图中,人为标注的红点圆心准确落在了微信聊天功能菜单中的“位置”图标上。\\n2. 截图变化描述:对比 after 截图,界面下方成功弹出了位置相关的二级菜单,提供了“发送位置”和“共享实时位置”两个选项。\\n3. 任务目标相关性:任务指令要求在群聊中“发位置共享”,点击“位置”图标是开启该功能的必要前置步骤。\\n4. 冗余性判断:该步骤逻辑正确,直接指向任务目标,无任何冗余。\\n5. 最终给分结论:操作准确且有效推进了任务,判定为 1 分。\"\n}\n```" }, { "step_index": 10, "score": 0, "reason": "[初始] (1) 标注位置落点分析:在 before 截图中,人为标注的红点圆心准确落在了微信位置功能二级菜单中的“发送位置”选项上。\n(2) before/after 截图的像素变化描述:对比 after 截图,界面成功从菜单选择页跳转到了地图选点页面,展示了当前位置的地图及周边的兴趣点列表。\n(3) 该变化与任务目标相关:任务要求在微信群中发送位置,点击“发送位置”是进入选点并发送流程的必要步骤。\n(4) 是否为冗余/多余步骤:该步骤是完成“发位置”任务的必经之路,非冗余操作。\n(5) 最终给分结论:动作准确,页面跳转符合预期,有效推进了任务,判定为 1 分。 | [反思改判] 改判:任务指令明确要求在微信‘产品交流群’中‘发位置共享’。在微信的功能菜单中,‘发送位置’(发送静态坐标)与‘共享实时位置’(即位置共享)是两个不同的功能。模型在 Step 10 的思考过程中明确表示‘任务目标是发送一个固定的位置,而不是实时共享’,并点击了‘发送位置’。这一操作逻辑与指令要求明显偏离,未能执行正确的‘位置共享’动作,因此该步骤应判定为 0 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置落点分析:在 before 截图中,人为标注的红点圆心准确落在了微信位置功能二级菜单中的“发送位置”选项上。\\n(2) before/after 截图的像素变化描述:对比 after 截图,界面成功从菜单选择页跳转到了地图选点页面,展示了当前位置的地图及周边的兴趣点列表。\\n(3) 该变化与任务目标相关:任务要求在微信群中发送位置,点击“发送位置”是进入选点并发送流程的必要步骤。\\n(4) 是否为冗余/多余步骤:该步骤是完成“发位置”任务的必经之路,非冗余操作。\\n(5) 最终给分结论:动作准确,页面跳转符合预期,有效推进了任务,判定为 1 分。\"\n}\n```" }, { "step_index": 11, "score": 0, "reason": "(1) 标注位置落点分析:在 before 截图中,人为标注的红点圆心落在位置列表第一项‘西湖区高新文教区嘉绿文苑西园’左侧的小图标上。此时该项右侧已有绿色对勾,表示已被选中。(2) before/after 截图的像素变化描述:对比 after 截图,界面没有任何可见变化,页面未跳转,也未执行发送动作。(3) 该变化是否与任务目标相关:任务目标是发送位置,当前页面应点击右上角的绿色‘发送’按钮。点击一个已经选中的列表项图标不会产生任何推进效果。(4) 是否为冗余/多余步骤:是的,该点击操作没有引起任何界面反馈或状态改变,属于无效的冗余操作。(5) 最终给分结论:由于点击位置错误且 after 截图无任何实质性变化,判定为 0 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"(1) 标注位置落点分析:在 before 截图中,人为标注的红点圆心落在位置列表第一项‘西湖区高新文教区嘉绿文苑西园’左侧的小图标上。此时该项右侧已有绿色对勾,表示已被选中。(2) before/after 截图的像素变化描述:对比 after 截图,界面没有任何可见变化,页面未跳转,也未执行发送动作。(3) 该变化是否与任务目标相关:任务目标是发送位置,当前页面应点击右上角的绿色‘发送’按钮。点击一个已经选中的列表项图标不会产生任何推进效果。(4) 是否为冗余/多余步骤:是的,该点击操作没有引起任何界面反馈或状态改变,属于无效的冗余操作。(5) 最终给分结论:由于点击位置错误且 after 截图无任何实质性变化,判定为 0 分。\"\n}\n```" }, { "step_index": 12, "score": 0, "reason": "[初始] 在 Step 12 中:(1) 标注位置落点分析:before 截图中的红点圆心准确落在了右上角的绿色“发送”按钮上。(2) before/after 截图的像素变化描述:对比 after 截图,界面成功从位置选择页面跳转回了“产品交流群”的聊天窗口,且聊天记录中新增了一条刚才选定的位置消息。(3) 该变化与任务目标高度相关,完成了“在产品交流群发位置”的指令要求。(4) 该步骤是完成任务的必要操作,非冗余。(5) 综上所述,该步骤执行正确且有效推进了任务,给 1 分。 | [反思改判] 改判:该步骤虽然完成了发送位置的操作,但存在逻辑偏离。任务指令明确要求在微信中‘发位置共享’(即‘共享实时位置’),而模型在 Step 10 中选择了‘发送位置’(发送静态位置),这与指令要求的功能不符。由于 Step 10 已因功能选择错误被判定为 0 分,Step 12 作为该错误路径下的后续确认操作,并未纠正错误,也未能达成‘位置共享’的目标,因此不应给分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 12 中:(1) 标注位置落点分析:before 截图中的红点圆心准确落在了右上角的绿色“发送”按钮上。(2) before/after 截图的像素变化描述:对比 after 截图,界面成功从位置选择页面跳转回了“产品交流群”的聊天窗口,且聊天记录中新增了一条刚才选定的位置消息。(3) 该变化与任务目标高度相关,完成了“在产品交流群发位置”的指令要求。(4) 该步骤是完成任务的必要操作,非冗余。(5) 综上所述,该步骤执行正确且有效推进了任务,给 1 分。\"\n}\n```" }, { "step_index": 13, "score": 0, "reason": "该步骤为 answer 动作,旨在宣告任务完成。通过观察 before 截图(即上一步操作后的状态)并对比任务指令:(1) 任务要求先导航去‘最近一家’海底捞,但截图显示发送的位置是‘嘉绿文苑’,这是一个住宅区而非海底捞,说明前置导航任务未正确执行或未到达目的地;(2) 任务要求‘发位置共享’,在微信语境下通常指‘共享实时位置’功能,而截图显示发送的是一个静态的‘发送位置’卡片;(3) 界面下方仍开启着功能菜单,并非任务完成后的自然状态。综上所述,任务的核心目标均未按要求达成,因此在该状态下给出完成反馈是错误的,判定为 0 分。", "action_type": "answer", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"该步骤为 answer 动作,旨在宣告任务完成。通过观察 before 截图(即上一步操作后的状态)并对比任务指令:(1) 任务要求先导航去‘最近一家’海底捞,但截图显示发送的位置是‘嘉绿文苑’,这是一个住宅区而非海底捞,说明前置导航任务未正确执行或未到达目的地;(2) 任务要求‘发位置共享’,在微信语境下通常指‘共享实时位置’功能,而截图显示发送的是一个静态的‘发送位置’卡片;(3) 界面下方仍开启着功能菜单,并非任务完成后的自然状态。综上所述,任务的核心目标均未按要求达成,因此在该状态下给出完成反馈是错误的,判定为 0 分。\"\n}\n```" } ]}
https://github.com/alenyagger/Open-AutoGLM
2.Mobile-Agent-3.5:
https://github.com/X-PLUG/MobileAgent
3.GELab-Zero:
https://github.com/stepfun-ai/gelab-zero
4.UI-TARS:
https://github.com/bytedance/UI-TARS
5.MAI-UI:
https://github.com/Tongyi-MAI/MAI-UI

