Claude-Opus-4.8中文测评出炉:代码生成、幻觉控制、科学推理均全球第一!
发布时间:2026-05-29来源:CLUE中文语言理解测评基准
Claude-Opus-4.8是Anthropic在2026年5月28日发布的最新旗舰模型,在多项编程和智能体的基准测试中登顶榜首,据官方称,该模型具有更强的判断力、更高的诚实度、更长时间的独立工作能力。SuperCLUE团队基于2026年5月中文大模型测评基准体系2026年5月中文大模型基准测评结果发布!DeepSeek、Qwen3.7、豆包竞争激烈!对Claude-Opus-4.8(high)进行了测评,以下是测评结果与分析:点击 文末阅读原文 或 复制下方网址到浏览器 即可跳转SuperCLUE官网查看完整的测评内容:
SuperCLUE官网地址:www.superclueai.com
一、SuperCLUE智能指数(2026年5月)
三、性价比区间分布(2026年5月)
四、推理效能区间分布(2026年5月)
一、Claude-Opus-4.8(high)在代码生成任务中取得83.58分,位列全球第一。Claude-Opus-4.8(high)在代码生成任务中以83.58的总分位列全球第一,领先Gemini-3.1-Pro-Preview(81.47分)超2分,较上个版本(Claude-Opus-4.7)提升超过4.5分。Claude-Opus-4.8(high)在SWE(软件工程)子任务中表现优异,取得73.33分,占据榜单第一,相较于Opus 4.7提升较大,在独立函数生成和Web Coding子任务中均处于头部位置。二、Claude-Opus-4.8(high)在幻觉控制任务中取得87.48分,位列全球第一。Claude-Opus-4.8(high)在幻觉控制任务中表现优异,取得87.48分,占据榜单第一,相较于Opus 4.7提升超过6分。三、Claude-Opus-4.8(high)在科学推理任务中取得77.19分,位列全球第一。Claude-Opus-4.8(high)在科学推理任务中表现优异,取得77.19分,占据榜单第一,相较于Opus 4.7提升8.77分。四、Claude-Opus-4.8(high)对比Claude-Opus-4.7(high)。Claude-Opus-4.8(high)在幻觉控制、科学推理和代码生成上均有较大幅度的提升,其中幻觉控制由81.11分提升到87.48分,提升超过6分,科学推理由68.42分提升至77.19分,代码生成由79.01分提升至83.58分。但在智能体(任务规划)、数学推理和指令遵循有一定的下降,特别是在指令遵循任务上,由56.19分降低到44.76分,下降超过11分。五、推理速度和性价比相较于Opus 4.7并无明显变化。Claude-Opus-4.8(high)的推理耗时(97.76秒/题)相较于上个版本(99.34秒/题)几乎持平,依旧位于高效能区间。Claude-Opus-4.8(high)的API价格和上个版本(74.38元/百万Tokens)保持一致,依旧处于低性价比区间。测评说明
本次2026年5月通用基准测评共有22个国内外模型参与(包括补测模型),测评集包括六大任务:数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制,共492题。详细的测评说明可见介绍文章:2026年5月中文通用大模型测评通知!
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。