Step-3.7-Flash中文测评出炉:参数效率和推理速度进一步提升!
发布时间:2026-05-29来源:CLUE中文语言理解测评基准
Step-3.7-Flash是阶跃星辰在2026年5月29日最新发布的面向Agent、Coding、Search、多模态工作流的高效率开源Flash旗舰模型。SuperCLUE团队基于2026年5月中文大模型测评基准体系2026年5月中文大模型基准测评结果发布!DeepSeek、Qwen3.7、豆包竞争激烈!对Step-3.7-Flash(high)进行了测评,以下是测评结果与分析:点击 文末阅读原文 或 复制下方网址到浏览器 即可跳转SuperCLUE官网查看完整的测评内容:
SuperCLUE官网地址:www.superclueai.com
一、SuperCLUE智能指数(2026年5月)
三、性价比区间分布(2026年5月)
四、推理效能区间分布(2026年5月)
一、Step-3.7-Flash(high)对比Step-3.5-Flash。Step-3.7-Flash(high)在科学推理、代码生成、智能体(任务规划)、数学推理四大任务上相较于上个版本均有一定的提升,其中科学推理由59.65分提升至66.67分,提升约7分;代码生成任务由62.81分提升至65.33分;智能体任务由64.99分提升至67.24分;数学推理由64.91分提升至66.67分。Step-3.7-Flash(high)在幻觉控制任务上有1分左右的下降,由61.27分下降至60.13分,在指令遵循任务上没有变化。二、Step-3.7-Flash(high)的参数效率进一步提升。Step-3.7-Flash(high)的参数效率由上个版本的0.2772分/B提升到0.2878分/B,参数效率得到了进一步的提升。Step-3.7-Flash(high)的推理耗时(65.91秒/题)相较于上个版本(73.00秒/题)减少了近8秒,推理速度提升了约10.8%。Step-3.7-Flash(high)的API价格(3.04元/百万Tokens)相较于上个版本(1.05元/百万Tokens)增加近3倍,但依旧处于较低的价格水平。测评说明
本次2026年5月通用基准测评共有23个国内外模型参与(包括补测模型),测评集包括六大任务:数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制,共492题。详细的测评说明可见介绍文章:2026年5月中文通用大模型测评通知!
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。