手机助手GUI智能体测评方案发布!AgentCLUE-Mobile

# 测评体系

注:具体测评体系以正式发布的测评报告为准。
# 涉及到的应用类别

# 被评手机智能体与手机交互流程

# 评测总体流程

# 评测体系介绍
1.基准场景介绍
本方案提出AgentCLUE-Mobile基准,在统一ADB环境与纯视觉输入下,通过标准化任务集与可复现的评分体系,评测手机智能体的意图拆解、多模态感知及跨应用执行质量,为Agent产品迭代与技术选型提供客观依据。详细场景设计如下:

其任务涉及覆盖了用户日常手机操作的高频场景,从第三方 App 的内容消费、社交互动到系统底层的硬件连接与设置,构成了手机助手 Agent 能力的完整评测版图。任务涉及到的应用如下:
2.基准场景详解
2.1.复杂意图拆解与动态规划
复杂意图拆解与动态规划:考察Agent系统的认知决策能力。在统一的纯视觉交互范式下,评测Agent能否将用户模糊、多义或条件化的指令拆解为可执行的操作序列,能否基于实时截图证据进行条件分支选择,以及在执行遇阻时能否自主诊断并动态调整规划路径。其子维度解释为:
显示指令拆解:用户以直白、无歧义的方式陈述操作目标,Agent 需将其映射为正确的操作序列。示例题目为:"打开高德地图,搜索'杭州东站',并规划从当前位置出发的公共交通路线,选择耗时最短的"。手机初始状态为:手机主屏。
隐式需求判断:用户仅陈述状态或感受,未明确请求动作。Agent 需基于当前截图的视觉证据推断应执行的操作,并完成从"状态描述"到"动作触发"的映射。示例题目为:"有点饿了,看看附近500米内有什么评分4.5以上的快餐"。手机初始状态:手机主屏
多意图并行识别:单句指令中嵌入两个及以上无依赖关系的独立任务。Agent 需全部检出并规划执行,禁止遗漏或错误合并为单一操作。考察意图检出完整性与执行顺序合理性。示例题目为:"打开微信给'彩虹海'发消息'晚上一起吃饭',同时打开网易云播放每日推荐的第一首歌曲"。手机初始状态为:手机主屏。
条件分支意图识别:用户指令包含 if/then/else 逻辑结构。Agent 需基于当前截图中的视觉证据执行条件判断,选择正确分支路径。示例题目为:"查查滴滴去'浙大紫金港'预估价多少钱,超过20元就查公交路线,低于20元就打快车"。手机初始状态为:手机桌面。
2.2.多模态GUI感知与理解:
考察Agent系统的视觉理解能力。评测Agent能否通过截图OCR提取文字并理解其业务语义(价格、状态、提示),能否在无文字条件下识别图标功能并输出精准像素坐标,能否通过颜色、透明度与空间布局判断控件状态、页面层级及遮挡关系。
文本语义提取:基于截图 OCR 提取文字后,不仅要求字符识别正确,更要求理解其业务语义类别。示例题目为:"这个订单我实际付了多少钱,优惠了多少"。手机初始状态为:电商订单页,显示"¥199.00",右侧灰色划线"¥299.00",下方红色标签"已享满 200 减 100"。
图标语义定位:对无文字标注或仅有图标的元素进行功能语义推断,并将其映射为精确的屏幕像素坐标。题目示例:"打开系统设置"。手机初始状态为:手机桌面首行,依次为:相机、设置、电话、信息(应用图标均无文字提示)。
控件状态判别:基于颜色空间特征(灰度、饱和度、透明度)、边框渲染模式及上下文布局,判断控件当前处于的状态。示例题目为:"关闭个人热点,打开蓝牙"。手机初始状态:"蓝牙":整体灰色,"个人热点":滑块居右,整体蓝色。
空间关系推理:将自然语言中的空间描述(相对位置、序数索引、属性约束)映射为截图中的像素级目标区域。示例题目为:"填手机号下面那个框"。手机初始状态:登录表单页,上方"手机号"输入框,其正下方垂直相邻为"验证码"输入框。
2.3.跨应用全链路执行
考察Agent系统的端到端闭环能力。评测Agent能否在异构应用间完成数据提取、搬运与回填,能否在10+步长链路中维持关键状态不丢失,能否通过系统面板、通知栏、最近任务等通道完成应用间流转,并以操作前后截图差异验证目标达成。
数据跨应用迁移:在源应用通过 OCR 提取关键数据实体(地址、单号、商品关键词、金额),跨应用边界后在目标应用通过输入框回填、搜索框注入或剪贴板流转完成数据消费,考察数据保真度与语义适配。示例题目:"把这个地址用高德导航过去"。手机初始状态:微信聊天窗口,对方发来纯文本:"收货地址:北京市海淀区中关村大街 1 号院 3 号楼 1202 室"。
跨应用长链路任务:在 10+ 步跨应用任务中,Agent 需维持关键状态变量(订单金额、商品规格、地址、联系人)不丢失。示例题目为:"搜索萧山国际机场,复制地址,打开滴滴出行粘贴到目的地看看打车多久,然后在日历里创建一个今天下午 3 点出发去机场的日程"。手机前置状态为:百度地图首页,搜索框为空,当前定位显示为"杭州市"。
通知栏跨应用任务:通过下拉通知栏,基于通知项中的应用图标、标题与操作按钮的视觉特征,点击后直达目标应用特定页面,跳过常规首页导航,考察对系统级入口的利用效率。题目示例:"下拉通知栏看下微信谁发的消息"。手机初始状态:手机桌面,顶部状态栏有微信图标,表示有新消息。
# 手机智能体与手机的交互方式
1.总体交互流程
被评手机智能体采用"感知-决策-执行"闭环架构。用户以自然语言下发任务后,智能体基于当前屏幕截图进行视觉理解与任务规划,生成结构化动作指令(如应用启动、坐标点击、文本输入等);该指令经 ADB 传输至手机端执行,执行后的新截图回传智能体,形成"观察-决策-执行"的循环迭代,直至任务完成。整个链路中,ADB 承担统一执行接口,截图承担纯视觉感知输入,智能体则负责认知决策与动态规划。被评手机智能体设计如下所示:

2.智能体可执行的动作空间列表
以Mobile-Agent-v3智能体为例,其可执行的动作空间列表为,ADB通过手机智能体生成的动作操作手机:

# 评测方案
该方案采用 "视觉状态对比 + 单步模型初审 + 人工终审修正" 的人机协同裁判机制,由裁判模型逐帧判定每步动作有效性,再经人工结合全量截图与执行轨迹综合复核、修正存疑步骤,最终输出经人工校验的任务完成度得分。
评测需前置准备三类数据:

坐标标注处理(预处理):
1.判断该步是否涉及坐标操作(如 click、long_press、swipe 等)
有坐标:在该步截图(step_i.png)上标注坐标点,输出为 step_i_marked.png
无坐标(如全局操作 press_home、input_text 等):直接复制原图并重命名为 step_i_marked.png
2.所有 marked 图片统一归档,作为后续裁判模型的视觉输入。
裁判模型逐步评分(第一层:单步评判)
按步骤顺序循环迭代,由裁判模型对每一步进行独立打分:
输入内容:
普通步(i < n-1):题目 + step_i_marked.png(操作前标注图)+ step_(i+1).png(操作后状态图)+ 前 i 步历史评分结果
最后一步(i = n-1):题目 + step_n-1_marked.png(最后操作前标注图)+ true.png(最终标准状态图)+ 前 n-1 步历史评分结果
评分标准:
裁判模型基于视觉状态变化判断该步是否有效推进任务且执行正确,给出二元评分:
1 分:该步有效,操作正确,状态向目标推进
0 分:该步无效、错误或偏离目标
人工复核(人工终审)
全部步骤模型初审完成后,启动人工复核分支,对模型评分进行终审校验:
复核动作:
审阅全部步骤的裁判模型得分
结合截图与轨迹综合判断:人工对比每步操作前后的截图变化,参考执行轨迹中的动作类型、坐标、输入文本、思考过程、执行反馈
对存疑步骤进行人工修正:针对模型可能误判的步骤(如无效操作被判有效、有效操作因微小状态变化被漏判等)进行人工干预
输出评测报告
以经人工复核确认/修正后的最终得分为准,汇总计算并生成结构化报告:
1. 汇总得分计算
汇总得分计算
2. 评测报告内容
每步裁判原始得分:模型初审的 0/1 评分记录
人工复核与修正记录:列出被人工干预的步骤、修正原因及修正后得分
最终总分:经人工终审确认后的任务完成度得分
最终得分
每个手机智能体产品的最终得分为:总分计算
总分=Σ(每个题目得分) / 总题数 × 100%
# 评测示例展示
总分计算
# 评测示例展示
被测评智能体为Mobile-Agent-v3智能体,被测评题目属于显式指令拆解
题目:打开qq,给miss.发送你好。
手机界面初始状态:手机第一页桌面
智能体输出轨迹内容为:
{ "task_id": null, "model_name": "qwen-vl", "instruction": "打开qq,给miss.发送你好。", "screen_size": [ 1200, 2670 ], "total_steps": 12, "hit_step_limit": false, "steps": [ { "step_index": 1, "plan": "1. 上滑屏幕打开应用抽屉,查找QQ应用图标 \n2. 如果找到QQ,点击打开;如果未找到,点击“应用商店”图标 \n3. 在应用商店中搜索“QQ”,选择官方QQ应用并安装(若已安装则直接打开) \n4. 启动QQ,等待登录完成(假设账号已登录或自动登录) \n5. 点击底部“联系人”或使用搜索框,输入“miss.”查找该联系人 \n6. 点击“miss.”进入聊天界面 \n7. 在输入框中输入“你好”,点击发送按钮 \n8. perform the `answer` action", "thought": "当前处于手机主屏幕,需要打开QQ应用。根据计划,首先应上滑屏幕打开应用抽屉以查找QQ图标。由于主屏未显示QQ,需通过滑动进入应用列表。", "action_type": "swipe", "coordinate": [ 612, 1997 ], "coordinate2": [ 606, 862 ], "reflector_outcome": "C", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42130-9ed498f2.png", "coordinate_original": [ 510, 748 ], "coordinate2_original": [ 505, 323 ] }, { "step_index": 2, "plan": "1. 再次从屏幕底部向上滑动(坐标:[500, 800] → [500, 300]),确保打开应用抽屉 \n2. 在应用抽屉中查找“QQ”图标 \n3. 如果找到QQ,点击打开;如果未找到,点击“应用商店”图标 \n4. 在应用商店中搜索“QQ”,选择官方QQ应用并安装(若已安装则直接打开) \n5. 启动QQ,等待登录完成(假设账号已登录或自动登录) \n6. 点击底部“联系人”或使用搜索框,输入“miss.”查找该联系人 \n7. 点击“miss.”进入聊天界面 \n8. 在输入框中输入“你好”,点击发送按钮 \n9. perform the `answer` action", "thought": "上次滑动失败是因为起始坐标 y=1997 超出了实际屏幕高度(当前屏幕为 1080×2400 分辨率,底部安全区域应在 y≈2200~2300 左右才合理;但更稳妥的方式是直接从屏幕最底部可见区域——即 Dock 栏下方或屏幕底边——向上快速滑动)。观察当前截图:屏幕底部有 4 个固定图标(电话、浏览器、信息、相机),其下方是系统导航栏(可能隐藏),因此应从 **y ≈ 2300**(接近物理屏幕底边)向上滑动至 y ≈ 1000,确保触发应用抽屉。 但更可靠的做法是:**先尝试点击“应用商店”图标**,因为用户明确允许“可以使用应用商店打开”,且该图标清晰可见(位于右侧第二行,橙色购物袋图标,标注“应用商店”),若 QQ 未安装,可直接通过商店搜索安装;若已安装,商店内也可能提供“打开”选项。这比反复滑动更高效,也规避了手势识别失败风险。 因此,当前最优动作是:**点击“应用商店”图标**,进入后搜索 QQ。", "action_type": "click", "coordinate": [ 1027, 1738 ], "reflector_outcome": "C", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42130-9ed498f2.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42165-d7547c78.png", "coordinate_original": [ 856, 651 ] }, { "step_index": 3, "plan": "1. 点击顶部搜索栏(清除现有文本并聚焦输入框) \n2. 输入“QQ” \n3. 在搜索结果中查找“QQ”(腾讯官方出品,图标为蓝底白色企鹅) \n4. 若显示“安装”按钮 → 点击安装;若显示“打开”按钮 → 点击打开 \n5. 启动QQ,等待登录完成(假设自动登录或已登录) \n6. 点击底部“联系人”或使用搜索框,输入“miss.”查找该联系人 \n7. 点击“miss.”进入聊天界面 \n8. 在输入框中输入“你好”,点击发送按钮 \n9. perform the `answer` action", "thought": "当前界面是应用商店的首页,顶部有一个搜索栏(显示“三国志·战略版...”),且该搜索栏处于可点击状态。根据用户请求和整体计划, 我们需要在应用商店中搜索“QQ”,因此**第一步应点击搜索栏以聚焦输入框**,为后续输入“QQ”做准备。 此前尝试滑动打开应用抽屉失败,又误触广告进入非目标界面;现在已明确处于应用商店内,应直接利用其搜索功能推进任务。点击搜索栏是当前最可靠、最直接的动作,符合子目标第1步要求。", "action_type": "click", "coordinate": [ 524, 250 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42165-d7547c78.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42210-89f993e8.png", "coordinate_original": [ 437, 94 ] }, { "step_index": 4, "plan": "1. 输入文本“QQ”到搜索框中 \n2. 点击搜索结果中的“QQ”(腾讯官方出品,蓝底白企鹅图标) \n3. 若显示“安装”按钮 → 点击安装;若显示“打开”按钮 → 点击打开 \n4. 启动QQ,等待登录完成(假设自动登录或已登录) \n5. 点击底部“联系人”或使用搜索框,输入“miss.”查找该联系人 \n6. 点击“miss.”进入聊天界面 \n7. 在输入框中输入“你好”,点击发送按钮 \n8. perform the `answer` action", "thought": "当前已成功点击应用商店顶部搜索栏,且屏幕底部显示“ADB Keyboard {ON}”,说明输入框已被激活,可以进行文本输入。根据整体计划,下一步需在搜索框中输入“QQ”以查找该应用。因此,应直接执行输入操作。", "action_type": "type", "text": "QQ", "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42210-89f993e8.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42249-3ae8450c.png" }, { "step_index": 5, "plan": "1. 点击搜索建议中的“qq”(小写)以触发更精准搜索 \n2. 查看新搜索结果,寻找名称为“QQ”或“腾讯QQ”、图标为蓝底白企鹅的官方应用 \n3. 若找到 → 点击该应用,若显示“安装”则点击安装;若显示“打开”则点击打开 \n4. 启动QQ,等待登录完成(假设自动登录或已登录) \n5. 点击底部“联系人”或使用搜索框,输入“miss.”查找该联系人 \n6. 点击“miss.”进入聊天界面 \n7. 在输入框中输入“你好”,点击发送按钮 \n8. perform the `answer` action", "thought": "当前已成功在应用商店搜索框中输入“QQ”,但搜索结果中并未出现官方的“QQ”或“腾讯QQ”应用(蓝底白企鹅图标),而是显示了“QQ浏览器”“QQ阅读”等衍生应用。根据用户请求和整体计划,我们需要找到**主QQ应用**(即即时通讯工具,非浏览器/阅读器)。 观察屏幕下方搜索建议列表,其中有一项为 `qq`(小写),这可能是更精准的关键词触发项(如应用商店对大小写敏感,或“qq”能匹配到主应用包名 com.tencent.mobileqq)。因此,应点击该搜索建议 `qq`,以尝试获得更准确的结果。", "action_type": "click", "coordinate": [ 172, 1735 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42249-3ae8450c.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42290-75da2a73.png", "coordinate_original": [ 144, 650 ] }, { "step_index": 6, "plan": "1. 点击“QQ”应用条目右侧的“打开”按钮,启动QQ应用 \n2. 等待QQ主界面加载完成(假设已登录) \n3. 点击底部导航栏的“联系人”标签页 \n4. 在联系人列表顶部搜索框中输入“miss.” \n5. 从搜索结果中点击名为“miss.”的联系人 \n6. 进入聊天界面后,在输入框中输入“你好” \n7. 点击发送按钮 \n8. perform the `answer` action", "thought": "当前已成功在应用商店中搜索到“QQ”应用,并且其条目右侧显示“打开”按钮,说明QQ已安装。根据用户请求和整体计划,下一步应直接点击该“打开”按钮以启动QQ应用,这是最高效的方式,无需重复尝试进入应用抽屉或处理广告干扰。此前尝试通过滑动打开抽屉和点击图标均失败,而当前界面明确提供“打开”入口,应优先利用。", "action_type": "click", "coordinate": [ 1041, 1318 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42290-75da2a73.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42325-3a91c1cd.png", "coordinate_original": [ 868, 494 ] }, { "step_index": 7, "plan": "1. 点击左侧标准QQ图标(无角标、红围巾企鹅)以选择主QQ应用 \n2. 等待QQ主界面加载完成(假设已登录) \n3. 点击底部导航栏的“联系人”标签页 \n4. 在联系人列表顶部搜索框中输入“miss.” \n5. 从搜索结果中点击名为“miss.”的联系人 \n6. 进入聊天界面后,在输入框中输入“你好” \n7. 点击发送按钮 \n8. perform the `answer` action", "thought": "当前屏幕显示的是系统弹出的“请选择要使用的应用”对话框,提供了两个QQ应用选项:左侧为标准QQ图标(无角标、红围巾企鹅),右侧为带黄色角标的QQ(可能是QQ国际版或测试版)。根据整体计划第1步要求,“点击左侧标准QQ图标(无角标、红围巾企鹅)以选择主QQ应用”,因此应选择左侧的QQ图标。该操作将启动主QQ应用,进入后续流程(等待主界面加载、点击联系人等)。", "action_type": "click", "coordinate": [ 402, 2015 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42325-3a91c1cd.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42357-bae4f27e.png", "coordinate_original": [ 335, 755 ] }, { "step_index": 8, "plan": "1. 点击消息列表顶部的“Miss.”联系人条目,进入其聊天界面 \n2. 在聊天界面底部输入框中输入“你好” \n3. 点击发送按钮 \n4. perform the `answer` action", "thought": "当前QQ已成功打开,且消息列表中“Miss.”联系人条目位于顶部,符合子目标第1步要求:点击“Miss.”联系人条目进入聊天界面。根据屏幕截图,“Miss.”条目清晰可见,头像左侧区域为可点击区域,应直接点击该条目以进入与“Miss.”的聊天界面。", "action_type": "click", "coordinate": [ 598, 582 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42357-bae4f27e.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42395-f5134c85.png", "coordinate_original": [ 499, 218 ] }, { "step_index": 9, "plan": "1. 点击聊天界面底部的输入框,激活键盘(若未自动弹出) \n2. 输入文本“你好” \n3. 点击发送按钮(通常为右侧箭头图标或“发送”文字) \n4. perform the `answer` action", "thought": "当前已进入与“Miss.”的聊天界面,底部可见输入框区域(含麦克风、表情、加号等图标),但未显示“ADB Keyboard {on}”,说明输入框尚未激活。根据指南,需先点击输入框以激活键盘,才能进行后续输入操作。观察界面,输入框位于屏幕最下方中央位置,应点击该区域以聚焦输入框", "action_type": "click", "coordinate": [ 547, 2541 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42395-f5134c85.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42427-e6e47cfe.png", "coordinate_original": [ 456, 952 ] }, { "step_index": 10, "plan": "1. 在输入框中输入文本“你好” \n2. 点击发送按钮(右侧箭头图标) \n3. perform the `answer` action", "thought": "当前已进入与“Miss.”的聊天界面,且输入框已被激活(屏幕底部显示“ADB Keyboard {ON}”),说明可以安全输入文本。根据用户请求,下一步应输入“你好”到该输入框中,为后续发送做准备。", "action_type": "type", "text": "你好", "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42427-e6e47cfe.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42456-795c9776.png" }, { "step_index": 11, "plan": "1. 点击聊天界面右下角的蓝色“发送”按钮 \n2. perform the `answer` action", "thought": "当前已成功在与“Miss.”的聊天界面中输入了“你好”,且输入框内容已显示。根据用户请求和当前子目标,下一步应点击右下角蓝色“发送”按钮以完成消息发送。该按钮在屏幕右下角清晰可见,文本为“发送”,符合常规QQ界面布局。", "action_type": "click", "coordinate": [ 1041, 2475 ], "reflector_outcome": "A", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42456-795c9776.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42481-416f5139.png", "coordinate_original": [ 868, 927 ] }, { "step_index": 12, "plan": "1. perform the `answer` action", "thought": "根据用户请求“打开QQ,给miss.发送你好”,以及当前状态:已成功进入与Miss.的聊天界面,输入框中已输入“你好”,且“ADB Keyboard {ON}”显示键盘已激活,上一步已点击发送按钮并成功发送消息(聊天记录中可见“你好”气泡)。因此,任务已全部完成,无需进一步操作。此时应向用户确认任务完成。", "action_type": "answer", "text": "已成功向Miss.发送消息‘你好’。", "screenshot_before": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42481-416f5139.png", "screenshot_after": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42507-a6c3f59d.png" } ], "final_screenshot": "logs/20260514_114210_使用2打开qq,给miss/images/screenshot_2026-05-14-42507-a6c3f59d.png"}
智能体执行的路径二步骤截图为:
手机初态 ![]() | step_1 ![]() | step_2 ![]() | step_3 ![]() |
step_4 ![]() | step_5 ![]() | step_6 ![]() | step_7 ![]() |
step_8 ![]() | step_9 ![]() | step_10 ![]() | step_11 ![]() |
true.png为:

评测输出为:
{ "meta": { "instruction": "打开qq,给miss.发送你好。", "success_criteria": "", "model_name": "qwen-vl", "judge_model": "gemini-3-flash-preview", "evaluation_mode": "step_by_step_judge_no_gt" }, "overall_score": 91.67, "overall_category": "good", "overall_reason": "共 12 步,正确 11 步,得分 91.67。", "step_scores": [ { "step_index": 1, "score": 0, "reason": "通过逐像素对比 before 和 after 截图,发现两张截图除了状态栏时间从 11:42 变为 11:43 外,主屏幕的 UI 元素(图标位置、插件内容、背景)完全一致。虽然 before 截图上标注了向上的滑动轨迹,但 after 截图显示页面并未发生任何滚动、跳转或打开应用抽屉的变化。根据评测红线 1,如果 after 截图与 before 截图几乎相同,该步骤判定为无效,故给 0 分。", "action_type": "swipe", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"通过逐像素对比 before 和 after 截图,发现两张截图除了状态栏时间从 11:42 变为 11:43 外,主屏幕的 UI 元素(图标位置、插件内容、背景)完全一致。虽然 before 截图上标注了向上的滑动轨迹,但 after 截图显示页面并未发生任何滚动、跳转或打开应用抽屉的变化。根据评测红线 1,如果 after 截图与 before 截图几乎相同,该步骤判定为无效,故给 0 分。\"\n}\n```" }, { "step_index": 2, "score": 1, "reason": "在该步骤中,智能体执行了点击操作,坐标为 [1027, 1738],根据思考过程,该位置对应屏幕上的“应用商店”图标。由于第一步的滑动操作未能成功改变页面状态,智能体在这一步果断调整策略,尝试通过应用商店来搜索并启动 QQ,这符合任务指令中“可以使用应用商店打开”的逻辑,是达成“打开QQ”目标的有效路径。该操作位置准确,且针对前一步的失败做出了合理的方案调整,不属于冗余操作。因此,该步骤成功推进了任务进度,判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 0,\n \"reason\": \"1. 标注位置分析:before 截图中的红点(点击位置)准确落在了“应用商店”图标上。\\n2. 像素变化描述:after 截图显示手机界面从主屏幕跳转到了“应用商店”应用的首页。\\n3. 目标相关性:任务要求是“打开QQ”,而该步骤实际操作是打开了“应用商店”。这属于误触或错误的路径选择,与打开 QQ 的目标无关。\\n4. 冗余/多余步骤:该步骤不仅是冗余的,更是错误的,因为它引导用户进入了无关的应用界面,没有向完成任务(打开QQ并发送消息)推进。\\n5. 最终给分结论:由于点击了错误的应用图标,导致页面跳转到与任务无关的界面,判定为无效步骤,给 0 分。\"\n}\n```" }, { "step_index": 3, "score": 1, "reason": "在 Step 3 中,标注的红点准确落在了应用商店顶部的搜索栏区域。对比 before 和 after 截图,可以看到界面从应用商店首页跳转到了搜索详情页,并且底部弹出了输入法键盘(显示为 ADB Keyboard {ON}),搜索框内出现了光标,上方显示了搜索历史和热搜软件。这一操作成功激活了搜索功能,是搜索并打开 QQ 应用的必要步骤,有效地向任务目标推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 3 中,标注的红点准确落在了应用商店顶部的搜索栏区域。对比 before 和 after 截图,可以看到界面从应用商店首页跳转到了搜索详情页,并且底部弹出了输入法键盘(显示为 ADB Keyboard {ON}),搜索框内出现了光标,上方显示了搜索历史和热搜软件。这一操作成功激活了搜索功能,是搜索并打开 QQ 应用的必要步骤,有效地向任务目标推进。\"\n}\n```" }, { "step_index": 4, "score": 1, "reason": "在 Step 4 中,智能体执行了 type 动作输入“QQ”。对比 before 和 after 截图,可以看到搜索框从空白状态变为了已输入“QQ”的状态,并且页面下方出现了相关的搜索建议和应用搜索结果(如 QQ 浏览器、QQ 阅读等)。这一操作成功在应用商店中发起了对目标应用 QQ 的搜索,是寻找并打开该应用的必要且有效的步骤,直接向任务目标推进,因此判定为 1 分。", "action_type": "type", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 4 中,智能体执行了 type 动作输入“QQ”。对比 before 和 after 截图,可以看到搜索框从空白状态变为了已输入“QQ”的状态,并且页面下方出现了相关的搜索建议和应用搜索结果(如 QQ 浏览器、QQ 阅读等)。这一操作成功在应用商店中发起了对目标应用 QQ 的搜索,是寻找并打开该应用的必要且有效的步骤,直接向任务目标推进,因此判定为 1 分。\"\n}\n```" }, { "step_index": 5, "score": 1, "reason": "在 Step 5 中,标注红点准确落在了搜索建议列表中的“qq”关键词上。对比 before 和 after 截图,可以看到界面从搜索建议列表跳转到了正式的搜索结果页面,并且在结果中成功找到了主程序“QQ”(带有企鹅图标,且显示为‘打开’状态)。这一步操作有效地从模糊的搜索建议引导到了具体的目标应用,是完成‘打开QQ’这一任务目标的必要且关键的步骤,因此判定为有效推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 5 中,标注红点准确落在了搜索建议列表中的“qq”关键词上。对比 before 和 after 截图,可以看到界面从搜索建议列表跳转到了正式的搜索结果页面,并且在结果中成功找到了主程序“QQ”(带有企鹅图标,且显示为‘打开’状态)。这一步操作有效地从模糊的搜索建议引导到了具体的目标应用,是完成‘打开QQ’这一任务目标的必要且关键的步骤,因此判定为有效推进。\"\n}\n```" }, { "step_index": 6, "score": 1, "reason": "在 Step 6 中,标注红点准确落在了应用商店搜索结果中 QQ 应用条目右侧的“打开”按钮上。对比 before 和 after 截图,可以看到点击后界面弹出了一个系统选择框,提示“请选择要使用的应用”,并列出了两个 QQ 图标(这通常是因为手机安装了应用分身或双开版本)。这一变化是点击“打开”按钮后的直接且正确的反馈,成功触发了启动应用的流程,属于向完成任务目标(打开 QQ)迈进的有效且必要步骤。因此判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 6 中,标注红点准确落在了应用商店搜索结果中 QQ 应用条目右侧的“打开”按钮上。对比 before 和 after 截图,可以看到点击后界面弹出了一个系统选择框,提示“请选择要使用的应用”,并列出了两个 QQ 图标(这通常是因为手机安装了应用分身或双开版本)。这一变化是点击“打开”按钮后的直接且正确的反馈,成功触发了启动应用的流程,属于向完成任务目标(打开 QQ)迈进的有效且必要步骤。因此判定为 1 分。\"\n}\n```" }, { "step_index": 7, "score": 1, "reason": "在 Step 7 中,before 截图显示红点准确落在了系统弹出的“请选择要使用的应用”对话框左侧的 QQ 图标上。对比 after 截图,可以看到界面成功跳转到了 QQ 的消息主界面,且目标联系人“Miss.”就位于列表的第一项。这一步操作成功解决了应用多开导致的选择歧义,并顺利进入了应用内部,是完成任务的关键且必要步骤,属于有效推进。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 7 中,before 截图显示红点准确落在了系统弹出的“请选择要使用的应用”对话框左侧的 QQ 图标上。对比 after 截图,可以看到界面成功跳转到了 QQ 的消息主界面,且目标联系人“Miss.”就位于列表的第一项。这一步操作成功解决了应用多开导致的选择歧义,并顺利进入了应用内部,是完成任务的关键且必要步骤,属于有效推进。\"\n}\n```" }, { "step_index": 8, "score": 1, "reason": "(1) 标注位置分析:before 截图中的红色空心圆环及箭头准确指向了 QQ 消息列表中的第一个联系人“Miss.”条目;(2) 像素变化描述:对比 after 截图,界面已从消息列表成功跳转到了与“Miss.”的聊天对话框界面,可以看到历史聊天记录和底部的输入栏;(3) 任务目标相关性:该操作是给指定联系人发送消息的必经步骤,直接推进了任务;(4) 冗余性分析:该步骤是进入聊天界面的必要操作,非冗余;(5) 最终给分结论:操作准确且有效推进任务,给 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:before 截图中的红色空心圆环及箭头准确指向了 QQ 消息列表中的第一个联系人“Miss.”条目;(2) 像素变化描述:对比 after 截图,界面已从消息列表成功跳转到了与“Miss.”的聊天对话框界面,可以看到历史聊天记录和底部的输入栏;(3) 任务目标相关性:该操作是给指定联系人发送消息的必经步骤,直接推进了任务;(4) 冗余性分析:该步骤是进入聊天界面的必要操作,非冗余;(5) 最终给分结论:操作准确且有效推进任务,给 1 分。\"\n}\n```" }, { "step_index": 9, "score": 1, "reason": "(1) 标注位置分析:在 before 截图上,红点圆心准确落在了 QQ 聊天界面底部的文本输入框区域。(2) before/after 截图变化描述:对比 after 截图,可以看到输入框内出现了蓝色的输入光标,且屏幕最底部出现了“ADB Keyboard {ON}”的提示条,这表明点击操作成功激活了输入框并唤起了键盘。(3) 任务相关性:要发送“你好”,必须先点击输入框以获取焦点,这是完成任务的必要步骤。(4) 冗余性:该操作是标准流程,无冗余。(5) 最终给分结论:该步骤有效推进了任务,判定为 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:在 before 截图上,红点圆心准确落在了 QQ 聊天界面底部的文本输入框区域。(2) before/after 截图变化描述:对比 after 截图,可以看到输入框内出现了蓝色的输入光标,且屏幕最底部出现了“ADB Keyboard {ON}”的提示条,这表明点击操作成功激活了输入框并唤起了键盘。(3) 任务相关性:要发送“你好”,必须先点击输入框以获取焦点,这是完成任务的必要步骤。(4) 冗余性:该操作是标准流程,无冗余。(5) 最终给分结论:该步骤有效推进了任务,判定为 1 分。\"\n}\n```" }, { "step_index": 10, "score": 1, "reason": "在 Step 10 中,智能体执行了 type 动作输入“你好”。对比 before 和 after 截图,可以看到输入框从空白状态变为了已输入“你好”的状态,并且输入框右侧出现了蓝色的“发送”按钮。这一变化准确地完成了发送消息前的文本准备工作,是向任务目标(给 Miss. 发送“你好”)迈出的关键且必要的一步,因此判定为有效推进。", "action_type": "type", "raw_output": "```{\n \"score\": 1,\n \"reason\": \"在 Step 10 中,智能体执行了 type 动作输入“你好”。对比 before 和 after 截图,可以看到输入框从空白状态变为了已输入“你好”的状态,并且输入框右侧出现了蓝色的“发送”按钮。这一变化准确地完成了发送消息前的文本准备工作,是向任务目标(给 Miss. 发送“你好”)迈出的关键且必要的一步,因此判定为有效推进。\"\n}```" }, { "step_index": 11, "score": 1, "reason": "(1) 标注位置分析:在 before 截图上,红点圆心准确落在了 QQ 聊天界面右下角的蓝色“发送”按钮上。(2) before/after 截图的像素变化描述:对比 after 截图,可以看到原本在输入框中的“你好”文字已消失,且该消息已成功出现在上方的聊天记录区域(右侧气泡显示“你好”),输入框右侧的“发送”按钮也变回了“+”号图标。(3) 该变化与任务目标直接相关,完成了发送消息的最后一步。(4) 该步骤是完成任务所必须的,非冗余步骤。(5) 最终给分结论:操作准确且任务成功完成,给 1 分。", "action_type": "click", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"(1) 标注位置分析:在 before 截图上,红点圆心准确落在了 QQ 聊天界面右下角的蓝色“发送”按钮上。(2) before/after 截图的像素变化描述:对比 after 截图,可以看到原本在输入框中的“你好”文字已消失,且该消息已成功出现在上方的聊天记录区域(右侧气泡显示“你好”),输入框右侧的“发送”按钮也变回了“+”号图标。(3) 该变化与任务目标直接相关,完成了发送消息的最后一步。(4) 该步骤是完成任务所必须的,非冗余步骤。(5) 最终给分结论:操作准确且任务成功完成,给 1 分。\"\n}\n```" }, { "step_index": 12, "score": 1, "reason": "在 Step 12 的 before 截图中,可以看到已经成功进入了与 'Miss.' 的聊天界面,并且最后一条消息显示为用户发送的 '你好',这表明任务目标已经达成。对比 true.png,虽然聊天记录中的其他内容和时间有所不同,但核心任务(给 Miss. 发送你好)已经完成。因此,智能体执行 answer 动作宣告任务结束是正确的,该步骤判定为有效推进并完成任务。", "action_type": "answer", "raw_output": "```json\n{\n \"score\": 1,\n \"reason\": \"在 Step 12 的 before 截图中,可以看到已经成功进入了与 'Miss.' 的聊天界面,并且最后一条消息显示为用户发送的 '你好',这表明任务目标已经达成。对比 true.png,虽然聊天记录中的其他内容和时间有所不同,但核心任务(给 Miss. 发送你好)已经完成。因此,智能体执行 answer 动作宣告任务结束是正确的,该步骤判定为有效推进并完成任务。\"\n}\n```" } ]}
评测说明:第一步执行上滑动作失败得0分,其余步骤均为正确步骤,均得1分,该题目得分为91.67分。
评测流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告













