客服热线：010-68321050

Claude-Opus-4.8中文测评出炉：代码生成、幻觉控制、科学推理均全球第一！

发布时间：2026-05-29来源：CLUE中文语言理解测评基准

模型介绍

Claude-Opus-4.8是Anthropic在2026年5月28日发布的最新旗舰模型，在多项编程和智能体的基准测试中登顶榜首，据官方称，该模型具有更强的判断力、更高的诚实度、更长时间的独立工作能力。SuperCLUE团队基于2026年5月中文大模型测评基准体系2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！对Claude-Opus-4.8(high)进行了测评，以下是测评结果与分析：

点击文末阅读原文或复制下方网址到浏览器即可跳转SuperCLUE官网查看完整的测评内容：

SuperCLUE官网地址：www.superclueai.com

榜单概览

一、SuperCLUE智能指数（2026年5月）

二、模型象限图（2026年5月）

三、性价比区间分布（2026年5月）

四、推理效能区间分布（2026年5月）

五、总体表现（2026年5月）

测评结果与分析

一、Claude-Opus-4.8(high)在代码生成任务中取得83.58分，位列全球第一。

Claude-Opus-4.8(high)在代码生成任务中以83.58的总分位列全球第一，领先Gemini-3.1-Pro-Preview（81.47分）超2分，较上个版本（Claude-Opus-4.7）提升超过4.5分。

Claude-Opus-4.8(high)在SWE(软件工程)子任务中表现优异，取得73.33分，占据榜单第一，相较于Opus 4.7提升较大，在独立函数生成和Web Coding子任务中均处于头部位置。

二、Claude-Opus-4.8(high)在幻觉控制任务中取得87.48分，位列全球第一。

Claude-Opus-4.8(high)在幻觉控制任务中表现优异，取得87.48分，占据榜单第一，相较于Opus 4.7提升超过6分。

三、Claude-Opus-4.8(high)在科学推理任务中取得77.19分，位列全球第一。

Claude-Opus-4.8(high)在科学推理任务中表现优异，取得77.19分，占据榜单第一，相较于Opus 4.7提升8.77分。

四、Claude-Opus-4.8(high)对比Claude-Opus-4.7(high)。

Claude-Opus-4.8(high)在幻觉控制、科学推理和代码生成上均有较大幅度的提升，其中幻觉控制由81.11分提升到87.48分，提升超过6分，科学推理由68.42分提升至77.19分，代码生成由79.01分提升至83.58分。

但在智能体(任务规划)、数学推理和指令遵循有一定的下降，特别是在指令遵循任务上，由56.19分降低到44.76分，下降超过11分。

五、推理速度和性价比相较于Opus 4.7并无明显变化。

Claude-Opus-4.8(high)的推理耗时（97.76秒/题）相较于上个版本（99.34秒/题）几乎持平，依旧位于高效能区间。

Claude-Opus-4.8(high)的API价格和上个版本（74.38元/百万Tokens）保持一致，依旧处于低性价比区间。

测评说明

本次2026年5月通用基准测评共有22个国内外模型参与（包括补测模型），测评集包括六大任务：数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制，共492题。详细的测评说明可见介绍文章：2026年5月中文通用大模型测评通知！

欢迎加入【通用测评】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

AI报告

电话咨询

咨询请拨打电话010-68321050

在线咨询