Kimi-K2.7-Code中文SWE(软件工程)测评结果发布:较K2.6有小幅提升!

# SuperCLUE-SWE介绍
SuperCLUE-SWE是专为中文开发环境打造的软件工程评测基准,核心聚焦大型语言模型解决实际软件工程问题的真实能力。其任务实例均源自中文开源项目的真实 GitHub 问题(issue)及对应修复方案,精准贴合中文开发者的实际开发场景,有效填补了现有评测基准在中文问题描述适配、中文开发环境评估上的空白。
我们基于2026年5月SuperCLUE通用测评代码生成部分的SWE子任务(测评集介绍可见:2026年5月中文通用大模型测评通知!),对新发布的国产大模型 Kimi-K2.7-Code 进行了测评。
(SuperCLUE-SWE)中文「软件工程」测评基准方案参考:中文「软件工程」测评基准方案发布!(SuperCLUE-SWE)
2026年5月通用测评完整榜单详情请见:2026年5月中文大模型基准测评结果发布!DeepSeek、Qwen3.7、豆包竞争激烈!
测评摘要
测评要点 1:Kimi-K2.7-Code相较于K2.6有小幅提升。
Kimi-K2.7-Code在本次测评中总分56.67,位列国内模型第 3 名(总榜第6名),较K2.6有小幅提升,整体处于中上游水平。与国内榜首 Qwen3.7-Max(66.67 分)相差 10 分,与第 2 的 GLM-5.2(max)(63.33 分)相差 6.66 分。
测评要点 2:Kimi-K2.7-Code的流程稳定性优秀。
Kimi-K2.7-Code的评测流程稳定性表现非常扎实。在 30 道题中成功完成 28 题的完整评测流程,仅出现 2 次异常终止,完成率93.33%。这说明模型的工程执行框架和工具调用链路高度可靠,在 Patch 应用、环境交互等基础设施层面没有明显短板。
测评要点 3:修复转化率是Kimi-K2.7-Code的核心短板。
Kimi-K2.7-Code虽然流程跑通了 28 题,但其中 11 题(39.3%)的补丁未能通过评测,说明"能跑"但"修不对"的问题严重。与第一名(Claude Opus 4.8,转化率78.57%)相差近 18 个百分点,意味着每完成 10 道题,Kimi-K2.7-Code比顶尖模型少对 1.8 道,这是总分被拉开的最主要原因。
# 测评集介绍
本次SWE测评基于30道真实软件工程实例,以补丁修复后仓库测试通过率为核心指标,聚焦模型在代码缺陷定位、修复方案生成、工程化测试验证的核心能力。SWE 作为本次月榜代码生成部分三大子任务中难度最大、分数最低、分化最明显的一项,是拉开模型总分差距的关键。
总题数:30
涉及仓库数:9
仓库分布
# 榜单概览

# 测评分析
我们仅选取国内外主流大模型进行重点呈现,覆盖海外头部旗舰与国产主流模型,清晰展现当前大模型软件工程能力的竞争格局。下表为本次Kimi-K2.7-Code测评的核心指标对比:

注:
1. 完成数:成功走完评测流程并获得有效判分的题目数量;
2. 完成率 = 完成数 / 提交数,反映评测流程稳定性;
3. 异常数:评测过程中异常终止的题目数量(如 Patch Apply Failed、超时等);
4. 异常率 = 异常数 / 提交数,反映工程执行失败占比;
5. 空补丁数:未提取到有效 diff 或 patch 为空的题目数量;
6. 空补丁率 = 空补丁数 / 提交数,反映有效补丁产出能力;
7. 解决数:修复成功并通过评测的题目数量;
8. 转化率 = 解决数 / 完成数,反映有效评测后的修复质量;
9. 解决率 = 解决数 / 30,用于模型最终成绩横向对比(本批测评固定 30 题)。
1. Kimi-K2.7-Code的评测流程稳定性表现非常扎实。
Kimi-K2.7-Code在 30 道题中成功完成 28 题的完整评测流程,仅出现 2 次异常终止,完成率93.33%。这说明模型的工程执行框架和工具调用链路高度可靠,在 Patch 应用、环境交互等基础设施层面没有明显短板。与 GLM-5.2(完成 26 题,完成率 86.67%)相比,K2.7在流程稳定性上反而更胜一筹;与 DeepSeek-V4-Pro(完成 25 题,异常 5 次)相比,稳定性优势更加明显。
Kimi-K2.7-Code仅有 2 次异常终止(如 Patch Apply Failed、超时等),属于可控范围。这表明模型在生成合规补丁格式、控制执行时间等方面做得较好,没有出现大规模"跑不通"的情况。
另外,空补丁产出是 Kimi-K2.7-Code 的一个亮点指标。模型在 28 次完成评测的流程中,每一次都能产出非空的代码补丁,不存在"交白卷"或提取失败的情况。这说明:(1)模型的代码生成模块输出格式规范;(2)diff 提取和后处理链路完善;(3)模型对"需要修改什么"有清晰的认知,即使最终修复不正确,也能给出具体的代码变更尝试。
2. 修复转化率低是Kimi-K2.7-Code的核心短板。
修复转化率是 Kimi-K2.7-Code 最突出的瓶颈。虽然流程跑通了 28 题,但其中 11 题(39.3%)的补丁未能通过评测,说明"能跑"但"修不对"的问题严重。横向对比转化率:Claude-Opus-4.8:78.57%(28→22)、GLM-5.2:73.08%(26→19)、Qwen3.7-Max:71.43%(28→20)、Kimi-K2.7-Code:60.71%(28→17)。
3. 与Kimi-K2.6相比,有全面但幅度不大的进步。
Kimi-K2.7-Code 相比 K2.6-Thinking 有全面但幅度不大的进步。稳定性、异常控制和最终解决数都有 1 题左右的提升,转化率微增 1.45 个百分点。这说明版本迭代在工程稳定性上有所优化,但在修复正确性这个核心能力上尚未实现突破性提升。
# 交流与合作

