Claw产品接入飞书测评方案发布!SuperCLUE-LarkClaw

2026年初,OpenClaw框架推动Agent办公化落地,飞书开放插件与CLI接口,支持文档、多维表格及日历的原生操作。主流Claw产品相继接入飞书生态。SuperCLUE-LarkClaw延续SC-WeClaw方法论,面向飞书文档场景构建系统性能力基准。
飞书面向 Claw 产品的适配生态已覆盖办公协同的全栈能力,2026年3月,飞书开源官方OpenClaw插件及CLI工具(@larksuite/cli),支持Agent以用户身份操作云文档、多维表格及日程,实现与飞书工作流的深度融合。Claw产品对飞书生态的支持情况如下:


(1)自动化脚本评估
该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。
评分标准:每道题目的每个检查点采用0/1二分制。
对每一个检查点采用 0/1 二分制 独立评分:
1 分:该检查点验证通过
0 分:该检查点验证失败
每道题目的总分计算:
根据各检查点的重要程度分配权重,加权计算总分
(2)大模型评估
该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:
- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);
- 待评测模型生成的结果;
- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。
评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。
(3)混合评估
该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:
第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。
第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。
总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。
2. 最终统分
针对每个产品,我们采用如下规则计算最终得分,确保测评结果准确反映产品综合能力:
首先,按照对应评分机制(自动化脚本评估/大模型评估/混合评估)对每个任务的测评结果进行独立打分,得到各任务得分(结果保留2位小数);若产品在某一任务中执行失败,该任务得分为0分。
产品最终得分则为所有任务得分的算术平均值。
通过标准化的测评流程与严谨的评分机制,确保测评结果客观反映产品的真实能力,使最终得分与实际使用场景中的表现高度一致。
# 评测流程——示例展示





{"product_file_exists": 检查 D2_product.xlsx 是否存在"product_name_col_present": 检查列名中是否包含"产品"字样"product_sales_col_present": 检查列名中是否包含"销售额"字样"product_order_count_col_present": 检查列名中是否包含"订单数量"或"计数"或"订单数"字样"product_row_coverage_correct": 检查产品覆盖是否完整"product_values_correct": 检查D2_product文档统计数值是否正确,容差0.01"area_file_exists": 检查 D2_area.xlsx 是否存在"area_name_col_present": 检查列名中是否包含"地区"字样"area_sales_col_present": 检查列名中是否包含"销售额"字样"area_avg_price_col_present": 检查列名中是否包含"平均单价"或"平均"+"单价"字样"area_row_coverage_correct": 检查地区覆盖是否完整"area_values_correct": 检查D2_area.xlsx文档统计数值是否正确,容差0.01"month_product_file_exists": 检查 D2_month_product.xlsx 是否存在"month_index_col_present": 检查列名中是否包含"月"或"month"字样"month_rows_coverage_correct": 检查月份覆盖是否完整"month_product_columns_correct": 检查产品列是否完整"month_product_values_correct": 检查D2_month_product文档统计数值是否正确}
D2_product文档的标准答案为:
{ "平板": {"销售额": 1242297.0, "订单数量": 33}, "手机": {"销售额": 1421295.0, "订单数量": 46}, "笔记本电脑": {"销售额": 1091471.0, "订单数量": 33}, "耳机": {"销售额": 1290106.0, "订单数量": 50}, "键盘": {"销售额": 1562940.0, "订单数量": 38},}
D2_area文档的标准答案为:
{ "华东": {"销售额": 1811920.0, "平均单价": 3408.090909090909}, "华北": {"销售额": 1578725.0, "平均单价": 3234.5555555555557}, "华南": {"销售额": 1131790.0, "平均单价": 2478.0697674418607}, "西北": {"销售额": 922494.0, "平均单价": 3757.6206896551726}, "西南": {"销售额": 1163180.0, "平均单价": 3291.3076923076924},}
D2_month_product文档的标准答案为:
{ "1": {"平板": 60750.0, "手机": 92905.0, "笔记本电脑": 225132.0, "耳机": 191735.0, "键盘": 155547.0}, "2": {"平板": 365542.0, "手机": 6985.0, "笔记本电脑": 12555.0, "耳机": 262513.0, "键盘": 254496.0}, "3": {"平板": 12781.0, "手机": 506068.0, "笔记本电脑": 162967.0, "耳机": 296085.0, "键盘": 74750.0}, "4": {"平板": 41986.0, "手机": 23746.0, "笔记本电脑": 330957.0, "耳机": 123528.0, "键盘": 453272.0}, "5": {"平板": 291135.0, "手机": 354718.0, "笔记本电脑": 183908.0, "耳机": 48788.0, "键盘": 135160.0}, "6": {"平板": 375538.0, "手机": 152734.0, "笔记本电脑": 169169.0, "耳机": 210892.0, "键盘": 175369.0}, "7": {"平板": 94565.0, "手机": 284139.0, "笔记本电脑": 6783.0, "耳机": 156565.0, "键盘": 314346.0},}
评价结果:
{ "product_file_exists": 1.0, "product_name_col_present": 1.0, "product_sales_col_present": 1.0, "product_order_count_col_present": 1.0, "product_row_coverage_correct": 1.0, "product_values_correct": 1.0, "area_file_exists": 1.0, "area_name_col_present": 1.0, "area_sales_col_present": 1.0, "area_avg_price_col_present": 1.0, "area_row_coverage_correct": 1.0, "area_values_correct": 0.0, "month_product_file_exists": 1.0, "month_index_col_present": 1.0, "month_rows_coverage_correct": 1.0, "month_product_columns_correct": 1.0, "month_product_values_correct": 1.0,}{ "score_percentage": 0.8, }
评分说明:模型输出文件D2_area的平均单价与标准答案不符合,因此该项检查点得0分,总分为0.8分。
# 参测流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告
# 邮件申请
# 联系我们

