2026年5月中文通用大模型测评通知!
发布时间:2026-04-28来源:CLUE中文语言理解测评基准
SuperCLUE-2026年5月通用大模型测评通知
为全面评估截至2026年5月中文大模型的综合性能和发展进程,SuperCLUE团队计划将于2026年5月28日发布《中文大模型通用基准测评2026年5月测评结果》。
本次测评将延续2026年3月SuperCLUE通用测评基准体系:2026年3月中文通用大模型测评通知!,仅对各大任务内部的子类类别和难度作出部分变化。即日起-2026年5月13日:报名申请、模型对接
5月14日-5月21日:模型测评
5月22日-5月25日:结果统计
5月28日:发布文章
2026年5月SuperCLUE通用基准测评总分由六大核心任务的得分构成,每部分的权重相同。即:
总分=(数学推理+科学推理+代码生成+智能体(任务规划)+精确指令遵循+幻觉控制)/6
针对每个题目,每个模型有最多3次回答的机会(即如果没有正常获取答案,可尝试的次数);每次请求的超时时长为30分钟;3次尝试均未获取到答案的题目计0分。请各大模型团队于2026年5月13日18:00前使用单位邮箱参与申请,发送至:
contact@superclue.ai
邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
2026年5月基准测评将会发布【总榜】、【模型象限】及【各专项榜单】等,总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。用户意见征集:
诚邀您推荐希望我们评测的大语言模型,您的建议可通过下方评论区留言,我们将认真考量每一条意见,并酌情纳入后续评测计划。
另:
请关注CLUE官网:
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。