终端AI 编程工具（Claude Code）中文场景软件工程SWE测评方案发布！

发布时间：2026-06-22来源：CLUE中文语言理解测评基准

Claude Code 是 Anthropic 推出的命令行编程工具，以终端智能体形态运行，通过与底层大模型交互，实现对代码的理解、文件编辑、命令执行和多轮协作。它借助内置工具调用模型能力，可自动化完成复杂的代码修复任务。

然而，现有主流 SWE-bench 数据集多以英文 issue 为主，且缺少以 Claude Code 为框架、面向中文开发场景的系统性评测。为评估不同底层大模型在 Claude Code 框架下、面对中文问题描述时的真实代码修复表现，我们基于 SuperCLUE-SWE 构建了本测评方案。

（SuperCLUE-SWE）中文「软件工程」测评基准方案参考：中文「软件工程」测评基准方案发布！（SuperCLUE-SWE）

2026 年 3 月测评结果详情请见：2026年3月通用文本测评——SWE（软件工程）分析：海外旗舰领跑，国产模型梯队化突围

测评方案要点

1.模型能力对比

在 Claude Code 统一框架下，对比多个底层大模型（DeepSeek、Claude、GPT 等）的代码修复成功率。

2.中文场景表现分析

考察各模型在中文软件工程任务中的语义理解、代码生成与修复质量，评估其对中文技术语境和文档的适应能力。

3.成本与效率分析

记录每个模型在 Claude Code 框架中的 token 消耗、调用费用、运行时长、交互轮数。

4.科学量化评价体系

建立明确的量化判定标准，采用0-1 二元打分机制评估任务完成情况：任务达标赋值 1，未达标赋值 0。评价结果客观可横向对比，为模型迭代优化提供清晰指引。

# 题目概览

本次测评数据集共包含 95 个实例，全部来源于真实开源 Python 项目。所有实例的问题描述均为中文，由原始英文 issue 翻译或改写而来，旨在考察模型在中文软件工程场景下的代码修复能力。数据集涵盖开发者工具、Web 框架、科学计算、自然语言处理、数据可视化等多个领域，兼具功能多样性与任务代表性。

库名	占比	所属类别	功能说明
black	28.4%	工具 / 开发者生产力	Python 官方代码格式化工具，自动 code style enforcement
pyecharts	16.8%	可视化	基于 ECharts 的可视化库，用 Python 生成图表（HTML/JS 渲染）
nonebot2	14.7%	Web / 聊天机器人 / 事件驱动框架	通过适配器接入 QQ、Telegram 等平台，构建自动化对话与事件处理
sympy	10.5%	科学计算 / 符号数学	符号计算库，用于代数、微积分、方程求解等
python-pinyin	9.5%	文本处理 / NLP 工具（属于“数据处理与语言工具”子类）	将汉字转拼音的工具库，常用于中文 NLP 或文本预处理任务
httpx	8.4%	Web / 网络 / HTTP 工具	现代化异步 HTTP 客户端，支持 sync + async API，Requests 的继任者
jieba	5.3%	文本处理 / NLP 工具	中文分词库，用于自然语言处理；内部算法含 Trie 树、词频统计等
fastapi-amis-admin	3.2%	Web / 框架 / 管理后台扩展	基于 FastAPI 和 AMIS 的低代码后台管理系统框架
Tushare	3.2%	机器学习 / 数据分析	金融数据接口库，用于量化分析、股票数据抓取和分析

# 测评流程与评分方法

整个测评从加载实例数据集、模型配置与 Prompt 模板开始，随后进入循环修复阶段。对每个实例，系统首先创建隔离的代码环境（如 Docker 容器），将中文 Issue 描述和代码库状态作为任务输入提交给 Claude Code，由底层模型自主分析并生成代码修复。若模型成功返回 Patch，则解析并保存单实例结果；若出现超时、无输出或格式错误等情况，则记录失败原因。所有实例处理完毕后，汇总结果并转入自动验证环节。

验证阶段同样以循环方式进行：逐一将 Patch 应用到原始代码库，运行与该 Issue 相关的测试用例（如 pytest 指定测试）。测试全部通过则标记为 Resolved（已解决），否则标记为 Unresolved（未解决）。全部实例评测完成后，输出最终报告。

评分采用严格的二元通过制：单实例中，Patch 成功应用且目标测试全部通过计为 1 分，其余情况计为 0 分。整体核心指标为通过率，即 Resolved 实例数占总实例数的百分比。此外，可选统计执行成功率、测试通过率以及失败原因分布等维度。该评分完全由 SWE-bench 自动测试框架在隔离环境中判定，无需人工干预，确保每次评测结果客观且可复现。详细流程如下图所示：

总分的计算

模型得分=（得分为1的实例数量/记分实例总数量）*100%

# 评估示例

【测评模型】：deepseek-v4-pro（high)

【实例信息】：psf__black-4141

问题描述为：

> `blank_line_after_nested_stub_class`：如果上一行是函数 def，则失效>> 这是关于“blank_line_after_nested_stub_class”预览样式。如果类体以带省略号的函数定义结尾，则无法识别添加空行。>> 例如，前面代码添加到 `file.pyi` 存根文件中：>> ```python> class TopLevel:> class Nested1:> foo: int> def bar(self): ...> field = 1>> class Nested2:> def bar(self): ...> foo: int> field = 1> ```> 运行：>> ```bash> $ black file.pyi> ```>> 结果代码中，空行只添加在 `Nested2` 之后，而不是 `Nested1` 之后。>> **预期行为**>> 预计在 `Nested1` 和 `Nested2` 之后都添加空行。>> **附加上下文**>> 问题似乎是 `src/black/lines.py` 中第一个 `if` 条件，需要交换条件顺序。

【给 Claude Code的提示词】：

System Prompt：

你是一名经验丰富的软件工程师，任务是修复开源代码库中的 bug。你会收到一个问题描述，并可以访问完整代码库。你的工作是：1. 通过阅读相关文件理解问题2. 定位代码中的 bug3. 做出最小化、聚焦的修改来修复 bug4. 运行相关测试验证修复是否生效规则：- 只修改修复 bug 所必需的代码- 除非修复本身需要，否则不要重构、重新格式化或改变代码风格- 除非问题明确要求，否则不要修改测试文件- 不要添加新的依赖- 除非必要，否则不要修改配置文件（setup.py、pyproject.toml 等）- 修改完成后，代码应能通过相关测试- 如果你无法修复该问题，请停止并报告你的发现

User Prompt：

请修复该代码库中的以下 bug。## 问题描述`blank_line_after_nested_stub_class`：如果上一行是函数 def，则失效[此处省略完整问题描述]## 修复步骤1. 首先阅读相关文件，理解问题（问题描述中会包含涉及哪些文件的线索）。2. 找到 bug 的精确位置。3. 只进行最小化的修复，不要引入无关改动。4. 修改完成后，运行相关测试以验证修复是否生效。5. 如果有 lint 或类型检查工具，也请运行，确保修改不会破坏任何检查。重要约束：- 只修复描述的 bug，不要重构或清理无关代码。- 除非问题明确要求，否则不要修改测试文件。- 不要添加新的依赖。- 保持修改最小化和聚焦。请逐步思考并执行。当你确认已经修复问题并通过了测试验证后，可以结束。

【Claude Code执行后输出的patch为】：

diff --git a/src/black/lines.py b/src/black/lines.pyindex b544c5e..9eb5785 100644--- a/src/black/lines.py+++ b/src/black/lines.py@@ -640,15 +640,15 @@ class EmptyLineTracker: if previous_def is not None: assert self.previous_line is not None if self.mode.is_pyi:- if depth and not current_line.is_def and self.previous_line.is_def:- # Empty lines between attributes and methods should be preserved.- before = 1 if user_had_newline else 0- elif (+ if ( Preview.blank_line_after_nested_stub_class in self.mode and previous_def.is_class and not previous_def.is_stub_class ): before = 1+ elif depth and not current_line.is_def and self.previous_line.is_def:+ # Empty lines between attributes and methods should be preserved.+ before = 1 if user_had_newline else 0 elif depth: before = 0 else:

【执行swe-bench评测输出】：

"psf__black-4141": { "status": "completed", "FAIL_TO_PASS": { "success": [ "tests/test_format.py::test_simple_format[nested_stub]" ], "failure": [] }, "PASS_TO_PASS": { "success": [ "tests/test_format.py::test_simple_format[function]", "tests/test_format.py::test_simple_format[comments]", "tests/test_format.py::test_simple_format[class_blank_parentheses]" ], "failure": [] } }

评测说明：通过FAIL_TO_PASS指标可判定，原执行失败的测试用例，应用 Claude Code生成的补丁后可正常运行；通过PASS_TO_PASS指标可判定，原执行通过的测试用例，应用 Claude Code生成的补丁后结果仍保持通过。两项指标同时满足则判定该题目修复完成，得分为 1 分。

# 参与测评

参测流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

评测申请

邮件标题：基于claude code框架的SuperCLUE-SWE软件工程中文测评申请，发送到contact@superclue.ai请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

联系我们

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。