微信接入Claw类产品哪家强?SC-WeClaw首测:MiMoClaw夺冠

SC-WeClaw测评方案文章详见:微信接入的龙虾怎么测?SC-WeClaw场景测评方案发布!
# SC-WeClaw榜单概览
1. 总分对比

2. 五大维度对比

SC-WeClaw测评摘要
摘要2:内容创作优势稳固,数据分析与文档处理仍存短板
内容创作以 89.48 分构成绝对优势长板,通用文本生成能力已趋成熟。代码开发(79.20 分)与信息检索(78.67 分)处于中等区间,构成专业任务支撑底盘。数据分析(72.91 分)与文档处理(75.41 分)得分偏低,为当前参评产品的共性薄弱环节。摘要3:高稳定性产品与高综合能力高度重合,尾部产品波动显著
KimiClaw 以 3.43 分极差表现最稳定,MiMoClaw、DuClaw 等亦属高稳定梯队;MaxClaw 极差达 28.22 分,尾部产品在稳定性与综合能力方面均有待提升。(一)场景设计
SC-WeClaw 测评基准的任务设计严格遵循微信 ClawBot 真实私聊场景的能力需求,覆盖从基础办公到高阶分析的完整链路。测评维度聚焦于文档处理、数据分析、内容创作、代码开发及信息检索与整理五大核心能力域,并下设二十余项细分任务指标,全面量化了 Agent 在统一交互场景下的真实表现。五大场景设计为:
文档处理:重点考察模型对多格式、长文本专业资料的深度理解与关键信息提取能力,典型任务包括多格式文档的信息整合、行业报告摘要生成以及技术文档调研。
数据分析:模拟业务人员真实工作流,涵盖 Excel 数据清洗、多文件合并、数据透视表生成,以及基于 PDF 报表的指标提取与竞品分析报告撰写,全面检验模型对结构化与非结构化数据的逻辑运算及商业洞察力。
内容创作:聚焦于办公效率与文本生成质量,包含商务邮件撰写、日程事件创建、博客文章生成、风格化改写及个性化回复调整等高频应用任务。
代码开发:要求模型具备辅助编程的实操能力,包括 Python 数据处理脚本编写、文件批量处理以及完整的项目初始化创建。
信息检索与整理:独立评测模型联网获取实时信息、筛选有效信源并整合生成报道的综合响应水平。
详细场景维度和任务如下:

(二)测评流程及评估方法
SC-WeClaw测评采用每个云产品连接微信ClawBot获取答案和自动化评估的方式,确保评估结果真实反映各产品连接微信ClawBot后的实际能力。
1. 自主设计测评任务
我们根据5大维度(文档处理、数据分析、内容创作、代码开发、信息检索与整理)的任务场景,自主设计详细的测评题目和明确的输出要求。
每道题目都附带:
完整的任务描述
明确的输入文件
具体的输出格式要求
详细的评分标准
2. 获取产品答案
将同一套题目提交给各参测产品,记录其实际输出作为"产品答案"。
为了避免单次测试的偶然性误差,确保测评结果的稳定性和可信度,我们对每个参测产品的每一项任务都进行了三次独立重复测评,全程严格控制变量:
所有测评环境保持完全一致;
每一次测评都重新向产品提交完整任务指令,全程独立记录产品的执行过程和输出结果,不同轮次测试互不干扰;
三次测评全部完成后,收集该产品对应任务的三组输出结果,统一进入后续评分环节。
3. 评分方法
本次SC-WeClaw测评采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:
(1)自动化脚本评估
该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。
评分标准:采用0/1二分制。
- 1分:脚本验证全部通过,所有检查点均符合预期,任务判定为成功。
- 0分:脚本验证失败,任一检查点未通过(如文件缺失、日期错误、格式不符等),任务判定为失败。
(2)大模型评估
该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:
- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);
- 待评测模型生成的结果;
- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。
评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。
(3)混合评估
该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:
第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。
第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。
总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。
4. 最终统分
针对每个产品每个任务的3次独立测评结果,我们采用如下规则计算最终得分,兼顾能力准确性和执行稳定性:
首先对3次测评结果分别按照对应评分机制(自动化脚本评估/大模型评估/混合评估)独立打分,得到3个单次得分;
最终任务得分为3次单次得分的算术平均值(结果保留2位小数);
若某产品在某一任务中3次全部执行失败,该任务最终得分为0分;若仅1-2次执行失败,仍按实际得分取平均,客观反映产品的稳定性表现。
通过三次测试取平均的方式,既能够过滤单次执行的偶发错误、网络波动等非产品能力因素的干扰,也能够真实反映产品的任务执行稳定性,让最终得分更贴近产品在实际使用中的真实表现水平。
# 参评产品
本次SC-WeClaw云Claw产品接入微信测评共有10款主流产品参测,具体测评产品详情如下图所示:

# 测评总榜
一、三次测评平均分榜单

二、第一次测评榜单

三、第二次测评榜单

四、第三次测评榜单

# 测评分析及结论
一、总分排名格局:集群内得分收敛,集群间梯度过渡与断层并存

从任务总分对比排名看,10 款参评模型的总分表现呈现出清晰的三级集群分布特征。高得分集群(≥85 分)中,MiMoClaw 以 89.29 分居首,KimiClaw(86.76 分)、AutoClaw(86.61 分)与 QClaw(85.50 分)构成第一梯队,集群内部最大分差在 3.8 分以内,得分分布相对紧凑。中得分集群(78–82 分)由 DuClaw(81.94 分)领头,StepClaw(79.93 分)、ArkClaw-Pro(79.48 分)与 WorkBuddy(78.73 分)并列,内部最大分差约 3.2 分,同群表现亦具较强一致性。高得分集群与中得分集群之间构成相邻能力台阶的过渡关系,能力梯度平缓。相比之下,由 CoPaw(68.21 分)与 MaxClaw(67.30 分)构成的低得分集群,与中得分集群之间出现了超过 10 分的巨大落差,构成了明确的能力边界与显著断层。整体得分结构表现为:头部集群内部收敛、中腰部梯次过渡、尾部能力断崖式衰减的非对称格局。
二、能力分化显著,内容创作领跑而深度推理能力待补强

从 SC-WeClaw 五大维度平均分来看,参评产品的能力布局呈现“长板突出、短板集中”的结构化特征。内容创作以 89.48 分构成绝对优势长板,表明通用文本生成场景已具备成熟能力。代码开发(79.20 分)与信息检索(78.67 分)处于中等区间,构成专业任务支撑底盘。文档处理(75.41 分)与数据分析(72.91 分)则形成明显能力洼地,尤以数据分析短板最为突出。
三、稳定性分析:极差分层显著,高综合能力模型同步具备更优输出稳定性

本次 SC-WeClaw 测评以三轮测试得分的极差衡量模型输出稳定性。KimiClaw 以 3.43 分的最低极差位居高稳定梯队之首,StepClaw、MiMoClaw、DuClaw 紧随其后,其中 MiMoClaw、KimiClaw 同时位列总分头部,兼具高表现与高稳定性。ArkClaw-Pro、QClaw、AutoClaw 稳定性居中,尚有优化空间。CoPaw、WorkBuddy、MaxClaw 稳定性偏弱,MaxClaw 极差高达 28.22 分,波动显著,服务一致性存疑。整体上,综合能力领先的头部模型稳定性更优,尾部模型则面临能力与稳定性的双重短板。本结论仅反映 SC-WeClaw 标准化场景下的三轮测评表现。
# 示例展示
对比示例
【任务类型】:文档处理
【题目】:
你现在是企业的智能办公助手,需要处理以下三份项目相关文件:
会议记录:《智能办公系统项目会议记录》(D6_meeting_notes.docx),包含三次项目会议的讨论要点、决议和进度
合同文件:《软件开发服务合同》(D6_contract.pdf),甲乙双方签署的正式软件开发服务合同,包含所有商务和法律条款
财务数据:《项目财务流水表》(D6_financial_data.xlsx),包含项目从2026年5月到10月的所有收支明细
请基于以上三份文件的内容回答以下问题,回答要求:
所有答案必须有明确的文件依据,不得编造信息
需要计算的问题请给出计算过程
跨文档关联的问题请说明信息来源对应的文件
涉及法律或合同条款的问题请引用具体条款编号
问题:结合会议记录、合同文件、财务数据三份材料,请分析:
1.甲方提出的新增「智能客服模块」需求是否符合合同约定的变更流程?
2.乙方收取15万元变更费用是否合法合规?请说明具体依据。
3.该需求变更对项目最终整体利润率的影响是多少(需给出计算过程,保留两位小数)
以上问题答案输出到D6_answer.docx文件,每个问题的完整原文作为Word一级标题,每个问题的答案写在对应标题下方。
D6_meeting_notes.docx、D6_contract.pdf、D6_financial_data.xlsx其中会议记录和合同文件内容过长只展示部分内容:
D6_meeting_notes.docx
D6_financial_data.xlsx

【评分点介绍】:
本题由自动化脚本和大模型二者混合进行评价,自动化脚本评价与大模型评价的权重为1:9,其中自动化脚本设计一个得分点,得分设计5个维度,
格式完全符合得1分:
正好有 3 个一级标题 Heading 1 这 3 个一级标题按顺序与题目原文完全一致 每个一级标题下面都有对应答案内容
至少有 3 个一级标题 其中至少 2 个一级标题和标准题目完全匹配 3 个标题下面都有内容
正文里能识别出 3 个问题的关键词 并且文档里至少有一些标题结构 但一级标题没有按标准题目原文来写
至少命中 1 组问题关键词,或者 至少有标题 但离标准格式差得比较远
没识别到题目关键词 也几乎没有标题结构 脚本无法判断是按要求组织的答案
{"format_compliance_score": 格式判断得分"script_score_normalized": 汇总得分}
## 核心评分原则1. **硬性校验优先**:关键合同条款引用错误、核心财务计算错误、核心事实判断错误直接按对应档位扣分,不考虑其他因素酌情加分。2. **五档评分规则**:每个维度仅使用 `1.0 / 0.75 / 0.5 / 0.25 / 0` 五个档位评分,加权计算总分。3. **不重复扣分**:同一错误仅在对应维度扣一次,不跨维度重复处罚。4. **明确校验依据**:所有评分均以三份原始文件和要求的标准答案为唯一依据,不得主观臆断。---### Criterion 1: 任务完成度与要求覆盖度 (Weight: 20%)评估是否完整回答了三个问题,无遗漏、无跑题。- **Score 1.0**: 完整回答全部3个问题,每个问题都有明确结论,无内容遗漏。- **Score 0.75**: 基本覆盖3个问题,但其中1个问题的回答内容明显单薄、关键信息缺失。- **Score 0.5**: 仅回答了2个问题,遗漏1个问题。- **Score 0.25**: 仅回答了1个问题,遗漏2个及以上问题。- **Score 0.0**: 完全未回答问题,或内容与题目要求完全无关。---### Criterion 2: 关键条款与事实准确性 (Weight: 30%)核心考核合同条款引用、事实判断的正确性,是专业能力核心评价项。**硬性校验点**:- 第一问必须引用合同第6条的6.1/6.2/6.3款,且关联第三次会议记录内容,结论为「符合变更流程」- 第二问必须引用合同第6.4条,明确对比「15万变更费 > 合同总额5%(4.9万元)」,关联第三次会议内容,结论为「收费合法合规」- **Score 1.0**: 完全满足所有校验点:条款引用完整准确、关联第三次会议内容、判断结论正确、15万与4.9万的对比逻辑清晰。- **Score 0.75**: 核心判断正确,但缺少1个次要校验点,例如未明确写4.9万的计算过程,或漏写1个条款编号。- **Score 0.5**: 存在1个核心错误,例如未关联第三次会议内容,或结论正确但未引用对应条款。- **Score 0.25**: 存在2个及以上核心错误,例如条款引用混乱、结论判断错误(如认为收费不合规)。- **Score 0.0**: 完全未引用合同条款,事实判断完全错误,或编造不存在的条款内容。---### Criterion 3: 财务计算准确性 (Weight: 25%)考核第三问的计算过程与结果准确性,标准答案为:> 变动前利润率:`-54.59%`;变动后利润率:`-34.07%`;利润率提升:`20.52个百分点`(均保留两位小数)- **Score 1.0**: 计算过程完整清晰,三个数值完全准确(误差≤0.1个百分点),且保留两位小数。- **Score 0.75**: 计算过程完整,仅最终提升百分点存在微小误差(误差≤0.5个百分点),或未保留两位小数但数值正确。- **Score 0.5**: 有计算过程,但3个数值中错1个,或过程有瑕疵但结果接近正确值。- **Score 0.25**: 仅有最终结果无计算过程,或3个数值中错2个及以上。- **Score 0.0**: 完全无计算过程,或结果与标准答案偏差超过10个百分点。---### Criterion 4: 依据充分性与规范度 (Weight: 15%)考核回答是否符合答题规范:所有结论有明确文件依据,跨文档关联标注来源,条款引用规范。- **Score 1.0**: 所有结论都明确标注依据来源,合同条款编号正确,跨文档内容说明对应的文件(如「根据第三次会议记录」「根据合同第6.4条」「根据财务流水表」)。- **Score 0.75**: 大部分结论有依据,仅个别结论未标注来源,但整体规范。- **Score 0.5**: 仅部分结论有依据,未明确标注信息来源。- **Score 0.25**: 基本无依据标注,仅输出结论,未说明信息来源。- **Score 0.0**: 存在编造信息、无中生有的内容,或完全没有任何依据说明。

脚本评分:{"format_compliance_score": 0.5,"script_score_normalized": 0.5,}大模型评分:{"task_completion_score": 1.0,"clause_fact_accuracy_score": 1.0,"financial_accuracy_score": 1.0,"evidence_norm_score": 1.0,"reasoning": "回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论;财务计算过程清晰,三个利润率数值完全准确;依据标注规范。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 1.0, \"financial_accuracy_score\": 1.0, \"evidence_norm_score\": 1.0, \"reasoning\": \"回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论;财务计算过程清晰,三个利润率数值完全准确;依据标注规范。\"}","llm_score_normalized": 1.0}加权汇总:{"total_score": 0.1*0.5+0.9*1.0=0.95}

脚本评价: {"format_compliance_score": 0.25,"script_score_normalized": 0.25,}大模型评价: {"task_completion_score": 1.0,"clause_fact_accuracy_score": 0.25,"financial_accuracy_score": 0.25,"evidence_norm_score": 0.5,"reasoning": "完整回答三问;未引用具体合同条款且缺失核心金额对比逻辑;财务总成本计算遗漏导致三个数值全错;依据标注缺失具体条款号。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 0.25, \"financial_accuracy_score\": 0.25, \"evidence_norm_score\": 0.5, \"reasoning\": \"完整回答三问;未引用具体合同条款且缺失核心金额对比逻辑;财务总成本计算遗漏导致三个数值全错;依据标注缺失具体条款号。\"}","llm_score_normalized": 0.45833333333333337}加权汇总:{"total_score": 0.1*0.25+0.9*0.4583=0.4375}
附各龙虾产品链接:
1.ArkClaw:
https://www.volcengine.com/docs/82379/2229107?lang=zh
2.KimiClaw:
https://www.kimi.com/bot
3.MaxClaw:
https://maxclaw.ai/
4.WorkBuddy:
https://www.codebuddy.cn/work/
5.AutoClaw:
https://autoglm.zhipuai.cn/autoclaw/
6.CoPaw:
https://www.aliyun.com/solution/tech-solution/copaw
7.DuClaw:
https://cloud.baidu.com/product/duclaw.html?from=home_banner
8.QClaw:
https://qclaw.qq.com/
9.StepClaw:
https://www.stepfun.com/chats/openclaw
https://aistudio.xiaomimimo.com/#/
# 参测流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告
# 邮件申请
# 联系我们


