GLM-5.2中文SWE（软件工程）测评结果发布：全球开源模型的佼佼者！

发布时间：2026-06-18来源：CLUE中文语言理解测评基准

# SuperCLUE-SWE介绍

SuperCLUE-SWE是专为中文开发环境打造的软件工程评测基准，核心聚焦大型语言模型解决实际软件工程问题的真实能力。其任务实例均源自中文开源项目的真实 GitHub 问题（issue）及对应修复方案，精准贴合中文开发者的实际开发场景，有效填补了现有评测基准在中文问题描述适配、中文开发环境评估上的空白。

我们基于2026年5月SuperCLUE通用测评代码生成部分的SWE子任务（测评集介绍可见：2026年5月中文通用大模型测评通知！），对新发布的国产大模型 GLM-5.2(max) 进行了测评。

（SuperCLUE-SWE）中文「软件工程」测评基准方案参考：中文「软件工程」测评基准方案发布！（SuperCLUE-SWE）

2026年5月通用测评完整榜单详情请见：2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！

测评摘要

测评要点 1：GLM-5.2(max)相较于上个版本，提升显著。

本次5月SWE（软件工程）子任务测评中，GLM-5.2(max)取得63.33分，成功完成19个任务，相较GLM-5.1（40分，完成12个任务）在软件工程任务上提升明显。

测评要点 2：GLM-5.2(max)已超越Opus 4.7，与Opus 4.8的差距进一步缩小。

GLM-5.2(max)以63.33分超过Claude Opus 4.7（60分），与Opus 4.8相差10分，但从绝对任务数量上来看，仅有3个任务的差距。

测评要点 3：GLM-5.2(max)的任务转化率优秀：一旦完成评测，修复成功率极高。

GLM-5.2(max) 在已完成的26题中成功解决 19题，转化率为 73.08%，仅次于Claude-Opus-4.8（转化率 78.57%）。但其完成率较低，流程稳定性有待加强。

# 测评集介绍

本次SWE测评基于30道真实软件工程实例，以补丁修复后仓库测试通过率为核心指标，聚焦模型在代码缺陷定位、修复方案生成、工程化测试验证的核心能力。SWE 作为本次月榜代码生成部分三大子任务中难度最大、分数最低、分化最明显的一项，是拉开模型总分差距的关键。

总题数：30
涉及仓库数：9
仓库分布

库名	所属类别（按 SWE-bench 分类体系）	题数
black	🛠️ 工具 / 开发者生产力	8
jieba	🧠 文本处理 / NLP 工具	1
pyecharts	🎨 可视化	5
httpx	🌐 Web / 网络 / HTTP 工具	3
nonebot2	🌐 Web / 聊天机器人 / 事件驱动框架	5
sympy	⚙️ 科学计算 / 符号数学	3
fastapi-amis-admin	🌐 Web / 框架 / 管理后台扩展	1
python-pinyin	🧠 文本处理 / NLP 工具	3
tushare	📊 机器学习 / 数据分析	1

# 榜单概览

# 测评分析

我们仅选取国内外主流大模型进行重点呈现，覆盖海外头部旗舰与国产主流模型，清晰展现当前大模型软件工程能力的竞争格局。下表为本次GLM-5.2测评的核心指标对比：

注：

1. 完成数：成功走完评测流程并获得有效判分的题目数量；

2. 完成率 = 完成数 / 提交数，反映评测流程稳定性；

3. 异常数：评测过程中异常终止的题目数量（如 Patch Apply Failed、超时等）；

4. 异常率 = 异常数 / 提交数，反映工程执行失败占比；

5. 空补丁数：未提取到有效 diff 或 patch 为空的题目数量；

6. 空补丁率 = 空补丁数 / 提交数，反映有效补丁产出能力；

7. 解决数：修复成功并通过评测的题目数量；

8. 转化率 = 解决数 / 完成数，反映有效评测后的修复质量；

9. 解决率 = 解决数 / 30，用于模型最终成绩横向对比（本批测评固定 30 题）。

1. 后端转化率是GLM-5.2的最大亮点：一旦完成评测，修复成功率极高。

GLM-5.2(max) 在已完成的26题中成功解决 19题，转化率为 73.08%。横向对比：Claude-Opus-4.8 转化率 78.57%（22/28），仅比 GLM-5.2 高5.49个百分点；Gemini-3.1-Pro 转化率 68.97%（20/29），比 GLM-5.2 低 4.11个百分点；Qwen3.7-Max 转化率 71.43%（20/28），比 GLM-5.2 低 1.65个百分点。

GLM-5.2(max) 的转化率在头部模型中仅次于 Claude-Opus-4.8，高于 Gemini-3.1-Pro 和 Qwen3.7-Max。这说明该模型的代码理解与修复逻辑质量处于第一梯队——只要评测流程能够正常走完，其生成补丁的正确性和有效性非常可靠。

2. 在头部模型（总分60分及以上）中，GLM-5.2(max)的完成率较低。

GLM-5.2(max) 的完成数为 26题，完成率为 86.67%。在30题固定测评集下，有4题未能成功走完评测流程，而头部模型如Claude Opus 4.8的完成数和完成率相对更高，仅有1-2题未完成。GLM-5.2(max) 的完成率是其与前面的模型（Gemini-3.1-Pro、Qwen3.7-Max）拉开差距的首要原因。每少完成1题，就直接损失该题获得解决分的机会。

3. 异常数与异常率：工程执行失败占比偏高。

GLM-5.2(max) 的异常数为 3题，异常率为 10%，在全部参测模型中属于异常率偏高的梯队。10%的异常率意味着每10次提交就有1次因 Patch Apply Failed、超时等工程原因终止。这反映出 GLM-5.2(max) 在代码补丁的格式规范性、应用兼容性或执行效率上存在系统性缺陷，导致评测流程无法闭环。

4. 空补丁问题暴露 diff 提取短板。

GLM-5.2(max) 的空补丁数为 1题，空补丁率为 3.33%。这是头部模型中（前5名）唯一出现空补丁的模型。空补丁表示模型未能产出有效的代码 diff，即模型可能在生成阶段输出了非标准格式的补丁内容，或评测系统无法从其输出中提取结构化 diff。虽然仅1题，但在高分段竞争中，这1题的空补丁直接对应1次解决机会的丧失。结合3题异常，GLM 在前端流程中累计损失 4题的评测机会，恰好等于其与 Qwen3.7-Max 的完成数差距。

# 交流与合作

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。