Claw产品接入飞书测评方案发布！SuperCLUE-LarkClaw

发布时间：2026-04-22来源：CLUE中文语言理解测评基准

# 测评背景

2026年初，OpenClaw框架推动Agent办公化落地，飞书开放插件与CLI接口，支持文档、多维表格及日历的原生操作。主流Claw产品相继接入飞书生态。SuperCLUE-LarkClaw延续SC-WeClaw方法论，面向飞书文档场景构建系统性能力基准。

# Claw产品接入飞书适配生态

飞书面向 Claw 产品的适配生态已覆盖办公协同的全栈能力，2026年3月，飞书开源官方OpenClaw插件及CLI工具（@larksuite/cli），支持Agent以用户身份操作云文档、多维表格及日程，实现与飞书工作流的深度融合。Claw产品对飞书生态的支持情况如下：

# 基准介绍

（一）场景设计

SuperCLUE-LarkClaw 沿用 SC-WeClaw 测评基准框架，核心差异在于将任务载体迁移至飞书生态——所有原始文档均以飞书在线文档形式呈现。测评覆盖从基础办公到高阶分析的完整链路，聚焦文档处理、数据分析、内容创作、代码开发及信息检索与整理五大核心能力域，下设二十余项细分任务指标，在统一交互环境下对 Agent 的实际表现进行系统性量化评估。详细场景维度和任务如下：

（二）评价方法及最终统分

1.评价方法

SuperCLUE-LarkClaw采用三层评分架构，包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明：

（1）自动化脚本评估

该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时，采用预设的Python脚本自动检查模型输出。

评分标准：每道题目的每个检查点采用0/1二分制。

对每一个检查点采用 0/1 二分制 独立评分：

1 分：该检查点验证通过
0 分：该检查点验证失败

每道题目的总分计算：
根据各检查点的重要程度分配权重，加权计算总分

（2）大模型评估

该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务，引入能力强大的大语言模型（Gemini-3.1-Pro-Preview）作为评审员。裁判模型将依据以下材料进行打分：

- 原始任务指令（如“撰写一篇关于可再生能源未来发展的博客文章，要求论点清晰、论据充分”）；

- 待评测模型生成的结果；

- 详细的评分细则（如“论点清晰度（1-5分）”“论据充分性与相关性（1-5分）”“文章结构逻辑性（1-5分）”“见解独特性（1-5分）”等）。

评分标准：采用1-5分制。裁判模型严格按照细则对多个维度分别打分，最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。

（3）混合评估

该机制适用于复杂综合题的评分，此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制，对任务的客观部分和主观部分分别评分，并按预设权重计算最终得分。工作机制：

第一步：自动化检查客观部分。例如，任务要求“搜索过去一周关于 AI 芯片的5条重要新闻，并整理成简报”，脚本首先自动验证：是否输出5条新闻？每条新闻的发布时间是否均在近一周内？客观部分根据验证结果给予0或1分。

第二步：大模型评审主观部分。无论客观检查是否通过，均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度，并给出 1-5 分的评分。评分标准：最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设，并在评分规则中明确说明。若客观检查失败（得0分），则即使主观得分较高，最终加权得分也会受到相应影响。此种机制体现了在实际应用中，“做对”与“做好”均对整体表现有贡献，但两者的重要性可能因任务而异。

总结而言，通过上述三种分数设定，构建了一个涵盖硬性指标（非对即错）、软性指标（好坏优劣）以及综合指标（客观与主观相结合）的全方位评价体系。由此得出的成功率、响应速度与成本等指标，能够更真实地反映各个Claw产品在实际工作场景中的执行能力。

2. 最终统分

针对每个产品，我们采用如下规则计算最终得分，确保测评结果准确反映产品综合能力：

首先，按照对应评分机制（自动化脚本评估/大模型评估/混合评估）对每个任务的测评结果进行独立打分，得到各任务得分（结果保留2位小数）；若产品在某一任务中执行失败，该任务得分为0分。
产品最终得分则为所有任务得分的算术平均值。

通过标准化的测评流程与严谨的评分机制，确保测评结果客观反映产品的真实能力，使最终得分与实际使用场景中的表现高度一致。

# 评测流程——示例展示

第一步：将Claw产品接入飞书后，在机器人助手聊天框发送任务：根据 D2_sales_data文档中的销售数据生成分维度汇总的3个数据透视表并分别保存到D2_product文档、D2_area文档和 D2_month_product文档。将文档保存到：

https://tl4jiu5pso.feishu.cn/drive/folder/Oou5fOHGtljiGvdbjQAcSl04noD

这个文件夹，透视表要求如下：

透视表1：按产品汇总

- 行：产品名称

- 值：销售额（求和）、订单数量（计数）

透视表2：按地区汇总

- 行：地区

- 值：销售额（求和）、平均单价（平均值）

透视表3：按月份+产品汇总

- 行：月份

- 列：产品

- 值：销售额（求和）

具体展示如下：

输入文件D2_sales_data（由于数据较长这里只展示部分）：

输出文件D2_product：

输出文件D2_area：

输出文件D2_month_product：

第二步：将输出的在线文档以excel格式下载到本地，采用自动化脚本评估，大模型评估，和混合评估三种方式，此次示例由自动化脚本进行评价，设置17个评分要点，其中product_values_correct，area_values_correct，month_product_values_correct检查点权重每个占20%，其余检查点平均分配剩下的40%权重，检查点详细解释如下所示：

{"product_file_exists": 检查 D2_product.xlsx 是否存在"product_name_col_present": 检查列名中是否包含"产品"字样"product_sales_col_present": 检查列名中是否包含"销售额"字样"product_order_count_col_present": 检查列名中是否包含"订单数量"或"计数"或"订单数"字样"product_row_coverage_correct": 检查产品覆盖是否完整"product_values_correct": 检查D2_product文档统计数值是否正确，容差0.01"area_file_exists": 检查 D2_area.xlsx 是否存在"area_name_col_present": 检查列名中是否包含"地区"字样"area_sales_col_present": 检查列名中是否包含"销售额"字样"area_avg_price_col_present": 检查列名中是否包含"平均单价"或"平均"+"单价"字样"area_row_coverage_correct": 检查地区覆盖是否完整"area_values_correct": 检查D2_area.xlsx文档统计数值是否正确，容差0.01"month_product_file_exists": 检查 D2_month_product.xlsx 是否存在"month_index_col_present": 检查列名中是否包含"月"或"month"字样"month_rows_coverage_correct": 检查月份覆盖是否完整"month_product_columns_correct": 检查产品列是否完整"month_product_values_correct": 检查D2_month_product文档统计数值是否正确}

D2_product文档的标准答案为：

{ "平板": {"销售额": 1242297.0, "订单数量": 33}, "手机": {"销售额": 1421295.0, "订单数量": 46}, "笔记本电脑": {"销售额": 1091471.0, "订单数量": 33}, "耳机": {"销售额": 1290106.0, "订单数量": 50}, "键盘": {"销售额": 1562940.0, "订单数量": 38},}

D2_area文档的标准答案为：

{ "华东": {"销售额": 1811920.0, "平均单价": 3408.090909090909}, "华北": {"销售额": 1578725.0, "平均单价": 3234.5555555555557}, "华南": {"销售额": 1131790.0, "平均单价": 2478.0697674418607}, "西北": {"销售额": 922494.0, "平均单价": 3757.6206896551726}, "西南": {"销售额": 1163180.0, "平均单价": 3291.3076923076924},}

D2_month_product文档的标准答案为：

{ "1": {"平板": 60750.0, "手机": 92905.0, "笔记本电脑": 225132.0, "耳机": 191735.0, "键盘": 155547.0}, "2": {"平板": 365542.0, "手机": 6985.0, "笔记本电脑": 12555.0, "耳机": 262513.0, "键盘": 254496.0}, "3": {"平板": 12781.0, "手机": 506068.0, "笔记本电脑": 162967.0, "耳机": 296085.0, "键盘": 74750.0}, "4": {"平板": 41986.0, "手机": 23746.0, "笔记本电脑": 330957.0, "耳机": 123528.0, "键盘": 453272.0}, "5": {"平板": 291135.0, "手机": 354718.0, "笔记本电脑": 183908.0, "耳机": 48788.0, "键盘": 135160.0}, "6": {"平板": 375538.0, "手机": 152734.0, "笔记本电脑": 169169.0, "耳机": 210892.0, "键盘": 175369.0}, "7": {"平板": 94565.0, "手机": 284139.0, "笔记本电脑": 6783.0, "耳机": 156565.0, "键盘": 314346.0},}

评价结果：

{ "product_file_exists": 1.0, "product_name_col_present": 1.0, "product_sales_col_present": 1.0, "product_order_count_col_present": 1.0, "product_row_coverage_correct": 1.0, "product_values_correct": 1.0, "area_file_exists": 1.0, "area_name_col_present": 1.0, "area_sales_col_present": 1.0, "area_avg_price_col_present": 1.0, "area_row_coverage_correct": 1.0, "area_values_correct": 0.0, "month_product_file_exists": 1.0, "month_index_col_present": 1.0, "month_rows_coverage_correct": 1.0, "month_product_columns_correct": 1.0, "month_product_values_correct": 1.0,}{ "score_percentage": 0.8,#总分具体计算为：1.0 × 0.20+0.0 × 0.20+1.0 × 0.20+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286 = 0.8000 }

评分说明：模型输出文件D2_area的平均单价与标准答案不符合，因此该项检查点得0分，总分为0.8分。

# 参测流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

# 邮件申请

邮件标题：SuperCLUE-LarkClaw 测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

# 联系我们

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。