Kimi-K2.7-Code中文SWE（软件工程）测评结果发布：较K2.6有小幅提升！

发布时间：2026-06-18来源：CLUE中文语言理解测评基准

# SuperCLUE-SWE介绍

SuperCLUE-SWE是专为中文开发环境打造的软件工程评测基准，核心聚焦大型语言模型解决实际软件工程问题的真实能力。其任务实例均源自中文开源项目的真实 GitHub 问题（issue）及对应修复方案，精准贴合中文开发者的实际开发场景，有效填补了现有评测基准在中文问题描述适配、中文开发环境评估上的空白。

我们基于2026年5月SuperCLUE通用测评代码生成部分的SWE子任务（测评集介绍可见：2026年5月中文通用大模型测评通知！），对新发布的国产大模型 Kimi-K2.7-Code 进行了测评。

（SuperCLUE-SWE）中文「软件工程」测评基准方案参考：中文「软件工程」测评基准方案发布！（SuperCLUE-SWE）

2026年5月通用测评完整榜单详情请见：2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！

测评摘要

测评要点 1：Kimi-K2.7-Code相较于K2.6有小幅提升。

Kimi-K2.7-Code在本次测评中总分56.67，位列国内模型第 3 名（总榜第6名），较K2.6有小幅提升，整体处于中上游水平。与国内榜首 Qwen3.7-Max（66.67 分）相差 10 分，与第 2 的 GLM-5.2(max)（63.33 分）相差 6.66 分。

测评要点 2：Kimi-K2.7-Code的流程稳定性优秀。

Kimi-K2.7-Code的评测流程稳定性表现非常扎实。在 30 道题中成功完成 28 题的完整评测流程，仅出现 2 次异常终止，完成率93.33%。这说明模型的工程执行框架和工具调用链路高度可靠，在 Patch 应用、环境交互等基础设施层面没有明显短板。

测评要点 3：修复转化率是Kimi-K2.7-Code的核心短板。

Kimi-K2.7-Code虽然流程跑通了 28 题，但其中 11 题（39.3%）的补丁未能通过评测，说明"能跑"但"修不对"的问题严重。与第一名（Claude Opus 4.8，转化率78.57%）相差近 18 个百分点，意味着每完成 10 道题，Kimi-K2.7-Code比顶尖模型少对 1.8 道，这是总分被拉开的最主要原因。

# 测评集介绍

本次SWE测评基于30道真实软件工程实例，以补丁修复后仓库测试通过率为核心指标，聚焦模型在代码缺陷定位、修复方案生成、工程化测试验证的核心能力。SWE 作为本次月榜代码生成部分三大子任务中难度最大、分数最低、分化最明显的一项，是拉开模型总分差距的关键。

总题数：30
涉及仓库数：9
仓库分布

库名	所属类别（按 SWE-bench 分类体系）	题数
black	🛠️ 工具 / 开发者生产力	8
jieba	🧠 文本处理 / NLP 工具	1
pyecharts	🎨 可视化	5
httpx	🌐 Web / 网络 / HTTP 工具	3
nonebot2	🌐 Web / 聊天机器人 / 事件驱动框架	5
sympy	⚙️ 科学计算 / 符号数学	3
fastapi-amis-admin	🌐 Web / 框架 / 管理后台扩展	1
python-pinyin	🧠 文本处理 / NLP 工具	3
tushare	📊 机器学习 / 数据分析	1

# 榜单概览

# 测评分析

我们仅选取国内外主流大模型进行重点呈现，覆盖海外头部旗舰与国产主流模型，清晰展现当前大模型软件工程能力的竞争格局。下表为本次Kimi-K2.7-Code测评的核心指标对比：

注：

1. 完成数：成功走完评测流程并获得有效判分的题目数量；

2. 完成率 = 完成数 / 提交数，反映评测流程稳定性；

3. 异常数：评测过程中异常终止的题目数量（如 Patch Apply Failed、超时等）；

4. 异常率 = 异常数 / 提交数，反映工程执行失败占比；

5. 空补丁数：未提取到有效 diff 或 patch 为空的题目数量；

6. 空补丁率 = 空补丁数 / 提交数，反映有效补丁产出能力；

7. 解决数：修复成功并通过评测的题目数量；

8. 转化率 = 解决数 / 完成数，反映有效评测后的修复质量；

9. 解决率 = 解决数 / 30，用于模型最终成绩横向对比（本批测评固定 30 题）。

1. Kimi-K2.7-Code的评测流程稳定性表现非常扎实。

Kimi-K2.7-Code在 30 道题中成功完成 28 题的完整评测流程，仅出现 2 次异常终止，完成率93.33%。这说明模型的工程执行框架和工具调用链路高度可靠，在 Patch 应用、环境交互等基础设施层面没有明显短板。与 GLM-5.2（完成 26 题，完成率 86.67%）相比，K2.7在流程稳定性上反而更胜一筹；与 DeepSeek-V4-Pro（完成 25 题，异常 5 次）相比，稳定性优势更加明显。

Kimi-K2.7-Code仅有 2 次异常终止（如 Patch Apply Failed、超时等），属于可控范围。这表明模型在生成合规补丁格式、控制执行时间等方面做得较好，没有出现大规模"跑不通"的情况。

另外，空补丁产出是 Kimi-K2.7-Code 的一个亮点指标。模型在 28 次完成评测的流程中，每一次都能产出非空的代码补丁，不存在"交白卷"或提取失败的情况。这说明：（1）模型的代码生成模块输出格式规范；（2）diff 提取和后处理链路完善；（3）模型对"需要修改什么"有清晰的认知，即使最终修复不正确，也能给出具体的代码变更尝试。

2. 修复转化率低是Kimi-K2.7-Code的核心短板。

修复转化率是 Kimi-K2.7-Code 最突出的瓶颈。虽然流程跑通了 28 题，但其中 11 题（39.3%）的补丁未能通过评测，说明"能跑"但"修不对"的问题严重。横向对比转化率：Claude-Opus-4.8：78.57%（28→22）、GLM-5.2：73.08%（26→19）、Qwen3.7-Max：71.43%（28→20）、Kimi-K2.7-Code：60.71%（28→17）。

3. 与Kimi-K2.6相比，有全面但幅度不大的进步。

Kimi-K2.7-Code 相比 K2.6-Thinking 有全面但幅度不大的进步。稳定性、异常控制和最终解决数都有 1 题左右的提升，转化率微增 1.45 个百分点。这说明版本迭代在工程稳定性上有所优化，但在修复正确性这个核心能力上尚未实现突破性提升。

# 交流与合作

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。