Step-3.7-Flash中文测评出炉：参数效率和推理速度进一步提升！

发布时间：2026-05-29来源：CLUE中文语言理解测评基准

模型介绍

Step-3.7-Flash是阶跃星辰在2026年5月29日最新发布的面向Agent、Coding、Search、多模态工作流的高效率开源Flash旗舰模型。SuperCLUE团队基于2026年5月中文大模型测评基准体系2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！对Step-3.7-Flash(high)进行了测评，以下是测评结果与分析：

点击文末阅读原文或复制下方网址到浏览器即可跳转SuperCLUE官网查看完整的测评内容：

SuperCLUE官网地址：www.superclueai.com

榜单概览

一、SuperCLUE智能指数（2026年5月）

二、模型象限图（2026年5月）

三、性价比区间分布（2026年5月）

四、推理效能区间分布（2026年5月）

五、参数效率（2026年5月）

六、总体表现（2026年5月）

测评结果与分析

一、Step-3.7-Flash(high)对比Step-3.5-Flash。

Step-3.7-Flash(high)在科学推理、代码生成、智能体(任务规划)、数学推理四大任务上相较于上个版本均有一定的提升，其中科学推理由59.65分提升至66.67分，提升约7分；代码生成任务由62.81分提升至65.33分；智能体任务由64.99分提升至67.24分；数学推理由64.91分提升至66.67分。

Step-3.7-Flash(high)在幻觉控制任务上有1分左右的下降，由61.27分下降至60.13分，在指令遵循任务上没有变化。

二、Step-3.7-Flash(high)的参数效率进一步提升。