GLM-5.2中文SWE(软件工程)测评结果发布:全球开源模型的佼佼者!

# SuperCLUE-SWE介绍
SuperCLUE-SWE是专为中文开发环境打造的软件工程评测基准,核心聚焦大型语言模型解决实际软件工程问题的真实能力。其任务实例均源自中文开源项目的真实 GitHub 问题(issue)及对应修复方案,精准贴合中文开发者的实际开发场景,有效填补了现有评测基准在中文问题描述适配、中文开发环境评估上的空白。
我们基于2026年5月SuperCLUE通用测评代码生成部分的SWE子任务(测评集介绍可见:2026年5月中文通用大模型测评通知!),对新发布的国产大模型 GLM-5.2(max) 进行了测评。
(SuperCLUE-SWE)中文「软件工程」测评基准方案参考:中文「软件工程」测评基准方案发布!(SuperCLUE-SWE)
2026年5月通用测评完整榜单详情请见:2026年5月中文大模型基准测评结果发布!DeepSeek、Qwen3.7、豆包竞争激烈!
测评摘要
测评要点 1:GLM-5.2(max)相较于上个版本,提升显著。
本次5月SWE(软件工程)子任务测评中,GLM-5.2(max)取得63.33分,成功完成19个任务,相较GLM-5.1(40分,完成12个任务)在软件工程任务上提升明显。
测评要点 2:GLM-5.2(max)已超越Opus 4.7,与Opus 4.8的差距进一步缩小。
GLM-5.2(max)以63.33分超过Claude Opus 4.7(60分),与Opus 4.8相差10分,但从绝对任务数量上来看,仅有3个任务的差距。
测评要点 3:GLM-5.2(max)的任务转化率优秀:一旦完成评测,修复成功率极高。
GLM-5.2(max) 在已完成的26题中成功解决 19题,转化率为 73.08%,仅次于Claude-Opus-4.8(转化率 78.57%)。但其完成率较低,流程稳定性有待加强。
# 测评集介绍
本次SWE测评基于30道真实软件工程实例,以补丁修复后仓库测试通过率为核心指标,聚焦模型在代码缺陷定位、修复方案生成、工程化测试验证的核心能力。SWE 作为本次月榜代码生成部分三大子任务中难度最大、分数最低、分化最明显的一项,是拉开模型总分差距的关键。
总题数:30
涉及仓库数:9
仓库分布
# 榜单概览

# 测评分析
我们仅选取国内外主流大模型进行重点呈现,覆盖海外头部旗舰与国产主流模型,清晰展现当前大模型软件工程能力的竞争格局。下表为本次GLM-5.2测评的核心指标对比:

注:
1. 完成数:成功走完评测流程并获得有效判分的题目数量;
2. 完成率 = 完成数 / 提交数,反映评测流程稳定性;
3. 异常数:评测过程中异常终止的题目数量(如 Patch Apply Failed、超时等);
4. 异常率 = 异常数 / 提交数,反映工程执行失败占比;
5. 空补丁数:未提取到有效 diff 或 patch 为空的题目数量;
6. 空补丁率 = 空补丁数 / 提交数,反映有效补丁产出能力;
7. 解决数:修复成功并通过评测的题目数量;
8. 转化率 = 解决数 / 完成数,反映有效评测后的修复质量;
9. 解决率 = 解决数 / 30,用于模型最终成绩横向对比(本批测评固定 30 题)。
1. 后端转化率是GLM-5.2的最大亮点:一旦完成评测,修复成功率极高。
GLM-5.2(max) 在已完成的26题中成功解决 19题,转化率为 73.08%。横向对比:Claude-Opus-4.8 转化率 78.57%(22/28),仅比 GLM-5.2 高5.49个百分点;Gemini-3.1-Pro 转化率 68.97%(20/29),比 GLM-5.2 低 4.11个百分点;Qwen3.7-Max 转化率 71.43%(20/28),比 GLM-5.2 低 1.65个百分点。
GLM-5.2(max) 的转化率在头部模型中仅次于 Claude-Opus-4.8,高于 Gemini-3.1-Pro 和 Qwen3.7-Max。这说明该模型的代码理解与修复逻辑质量处于第一梯队——只要评测流程能够正常走完,其生成补丁的正确性和有效性非常可靠。
2. 在头部模型(总分60分及以上)中,GLM-5.2(max)的完成率较低。
GLM-5.2(max) 的完成数为 26题,完成率为 86.67%。在30题固定测评集下,有4题未能成功走完评测流程,而头部模型如Claude Opus 4.8的完成数和完成率相对更高,仅有1-2题未完成。GLM-5.2(max) 的完成率是其与前面的模型(Gemini-3.1-Pro、Qwen3.7-Max)拉开差距的首要原因。每少完成1题,就直接损失该题获得解决分的机会。
3. 异常数与异常率:工程执行失败占比偏高。
GLM-5.2(max) 的异常数为 3题,异常率为 10%,在全部参测模型中属于异常率偏高的梯队。10%的异常率意味着每10次提交就有1次因 Patch Apply Failed、超时等工程原因终止。这反映出 GLM-5.2(max) 在代码补丁的格式规范性、应用兼容性或执行效率上存在系统性缺陷,导致评测流程无法闭环。
4. 空补丁问题暴露 diff 提取短板。
GLM-5.2(max) 的空补丁数为 1题,空补丁率为 3.33%。这是头部模型中(前5名)唯一出现空补丁的模型。空补丁表示模型未能产出有效的代码 diff,即模型可能在生成阶段输出了非标准格式的补丁内容,或评测系统无法从其输出中提取结构化 diff。虽然仅1题,但在高分段竞争中,这1题的空补丁直接对应1次解决机会的丧失。结合3题异常,GLM 在前端流程中累计损失 4题 的评测机会,恰好等于其与 Qwen3.7-Max 的完成数差距。
# 交流与合作

