全球首个AI漫剧大模型中文榜单首次发布 | Vidu Q3强势领先！

发布时间：2026-04-23来源：CLUE中文语言理解测评基准

2026 年 4 月，全球首个中文原生AI漫剧大模型测评基准 (SuperCLUE-ComicShorts) 首期榜单正式发布。该基准以前沿性、全面性、挑战性为核心理念，立足中文语境对模型开展深度评测。为精准衡量模型在多类输入条件下的真实生成能力，本次测评聚焦视频生成模型的文生视频、图生视频、参考生视频三大任务场景，综合评估模型在动漫风格与短剧内容创作上的整体表现，围绕基础能力与动态表现两大关键维度展开评价。

本次测评涵盖国内外共7个具有三项综合能力的视频生成模型，对各模型的综合创作能力开展全面深度评估。以下为详细测评细则与结果报告。

# 榜单概览

榜单地址：www.superclueai.com

AI漫剧大模型测评摘要

测评要点1：国内模型全面领跑，Vidu Q3 霸榜！

生数科技 Vidu Q3 不仅以 57.45 分强势登顶总榜，更在基础能力 (55.79分) 和动态表现 (59.10分) 均夺得桂冠；爱诗科技PixVerse C1 (50.72分)、生数Vidu Q2位列总榜二、三。相比之下，Google的Veo-3.1-Generate-Preview (总分40.56) 综合表现仅位列榜单中下游， AI漫剧这一垂直领域上国内已然领先。

测评要点2：基础能力聚焦静态构建：主体还原度强，质感仍需精进。

各模型在主体一致性上整体表现良好，其中 Vidu Q3 以 77.78 分位居榜首，静态特征的稳定性与延续性已具备实际使用价值；人物质感方面各模型得分集中在 30–45 分区间，整体质感表现偏弱，细节层次与真实度仍有较大提升空间。

测评要点3：动态表现重塑行业标准：从“画得像”到“演得好”。

模型间差异明显，Vidu Q3在内容复刻(63.12)、多角度生成(60.00)和情感表达(66.48)上位列第一，能可高效生成细节饱满、情绪自然的动态内容；PixVerse C1在动作表现力(57.33)、镜头控制力(59.85)上保持领先；Kling-V3-Omni则在画面一致性(80.00)上领先。整体来看，头部模型已具备成熟的动态生成能力，不同路线各有侧重。

#SuperCLUE-ComicShorts介绍

SuperCLUE-ComicShorts 是一个专为漫剧生成场景下的专项评测基准，旨在测评视频生成模型在生成动漫与短剧下的综合能力评估参考。基准包括文生、图生与参考生视频三项模型能力，基础能力与动态表现两大核心维度，涵盖11个二级维度。

测评指标

SuperCLUE-ComicShorts 立足中文语境与漫剧内容生成领域，不仅综合衡量模型在文生视频、图生视频及参考生视频三项核心能力上的综合表现，更围绕基础能力与动态表现两大维度展开测评。其中基础能力涵盖主体一致性、场景一致性、场景贴合度、语义理解度与人物质感五大维度；动态表现则聚焦镜头控制力、动作表现力、情感表达、内容复刻、画面一致性与多角度生成六大维度。

测评方法

SuperCLUE-ComicShorts参考SuperCLUE细粒度评估方式，采用 Gemini-3-Flash-Preview 作为裁判模型，每个维度进行细粒度的评估并可以提供详细的反馈信息。该评估流程分为以下几个步骤：

1）测评集构建

我们结合具体场景与考察方向针对评估维度撰写生成视频的提示词（prompt），为了更好地检验视频生成大模型的中文理解能力。

2）评分标准

裁判模型根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求，确保评分的一致性、稳定性与公正性。

3）自动化评价

裁判模型将根据具体的任务类型结合相关标准进行自动化评分。此外，SuperCLUE-ComicShorts 将采用多轮测评方案，即针对同一个模型生成的全部视频均将采取相同的评价流程进行前后三次测评，并将三次结果的平均值作为每个视频的最终分数参与后续计算与排名。

4）综合评分与反馈

最终，我们将各一级维度的平均分计算出来，结合各模型在不同场景中的得分，最终分数将反映出该模型在每个场景的综合性能。结果将以统一的输出格式提供，包括每个单独任务的详细评分与总体评价。

测评示例

【测评维度】：基础能力—主体一致性

【提示词】：镜头起始于@图1卡通拟人化的小狮子的中景特写，随后镜头缓慢向后拉远并向上抬升，展现出一个完整的@图3的儿童乐园场景，包括滑梯、秋千和彩色气球。小狮子开始在草地上欢快地奔跑，追逐一只@图2飞舞的卡通风格的蝴蝶，动作需流畅自然，富有弹性与节奏感。镜头需跟随小狮子的运动轨迹进行平滑摇摄，并在其跳跃时轻微推近，突出其喜悦的表情与动态细节。整体画面色彩明亮饱和，保持儿童友好的卡通渲染风格，动态表现需生动活泼，符合儿童认知习惯与审美偏好。

【模型回答】：

【裁判模型——第一轮打分】
**我的思考与总体评价（重点列举缺陷）：**
<**主要优点**：视频精准还原了指令要求的镜头轨迹，从小狮子的特写平滑过渡到儿童乐园的全景，且场景元素（滑梯、秋千、彩色气球）非常完整。主体小狮子在不同镜头景深下表现出了极高的一致性，服装（蓝色背带裤）和外貌特征稳定。>
<**必须详细列出的缺点、不足、与参考/提示词偏差之处**：
- 缺点1：[动态衔接略显生硬] 在镜头从特写拉远至中远景的转接处（约00:02秒），小狮子的转身动作与背景的透视关系略有抖动，且蝴蝶出现的瞬间体型比例相对于狮子而言偏大。
- 缺点2：[动态细节轻微缺失] 蝴蝶的飞行轨迹较为简单，狮子追逐的动作受限于镜头拉远速度，奔跑的动态表现力略显不足，但仍处于“基本符合”范畴。>

**逐项打分 (0/1)：**
1. **标准1 <主体一致性> 的评价：**
视频中的核心主体“卡通小狮子”在全片中保持了高度的一致性。从起始帧的脸部特写（大眼睛、橘黄色鬃毛、拟人化表情）到拉远后的全身形态，其色彩、风格以及标志性的蓝色背带裤均未发生突变或细节丢失。虽然镜头在拉远过程中由于景深变化导致远景处狮子细节略有简化，但其核心识别特征完全保留，符合多帧运动一致性的要求。
基于标准1的得分：【1】

**综合得分计算：**
计算过程：(仅当所有逐项标准均为 1 时，综合得分才为 1.00；否则综合得分为 0.00。)
综合得分：【1.00】

【裁判模型——第二轮打分】

**我的思考与总体评价（重点列举缺陷）：**

<评价过程与第一轮类似，此处略......>

**逐项打分 (0/1)：**

1. **标准1 <主体一致性> 的评价：**

<评价过程与第一轮类似，此处略......>

基于标准1的得分：【1】

**综合得分计算：**

计算过程：(仅当所有逐项标准均为 1 时，综合得分才为 1.00；否则综合得分为 0.00。)

综合得分：【1.00】

【裁判模型——第三轮打分】

**我的思考与总体评价（重点列举缺陷）：**

<评价过程与第一轮类似，此处略......>

**逐项打分 (0/1)：**

1. **标准1 <主体一致性> 的评价：**

<评价过程与第一轮类似，此处略......>

基于标准1的得分：【1】

**综合得分计算：**

计算过程：(仅当所有逐项标准均为 1 时，综合得分才为 1.00；否则综合得分为 0.00。)

综合得分：【1.00】

【综合得分】：(1.00+1.00+1.00)/3=1.00

# 参评模型

为综合衡量国内外视频生成模型在漫剧生成内容上的发展水平，本次测评选取了具备综合能力的1款海外模型和6款国内模型。

# 测评结果

总榜单

基础能力榜单

动态表现榜单

模型回复率统计

本次测评中，由于不同模型存在各自的规则约束与内容安全限制，模型有效回复率存在明显差异：

1. Vidu Q3、Vidu Q2表现最佳，回复率为100%，能适配多种内容的漫剧视频生成要求；

2. Veo-3.1-Generate-Preview 因内容风控与生成限制，在部分题材下出现生成失败或无法输出的问题；

3. Doubao-Seedance-2.0 在动漫类、真人人像生成场景中，存在大部分内容不符合平台规范的情况，回复率仅为66.36%；

4. 其余模型几乎均存在因平台内容限制问题，部分题目无法生成的情况。

# 模型对比示例

动态表现—动作表现力(文生)

【提示词】画面展现魔法学校里一个失控的图书馆。数以万计的带翅膀的魔法书正围绕着一名惊慌失措的男实习魔法师飞舞。他身穿墨绿色的巫师袍，领口别着一枚金色的狮头胸针。他举起手中的红木魔杖，嘴里念叨着咒语，杖尖不断迸发出粉色的星星状魔力火花抵御魔法书的攻击。

【各模型回答对比】

# 重点模型分析

在本次测评中，生数科技的Vidu系列模型表现亮眼，最新迭代模型Vidu Q3展现出了全方位领先的强劲实力，以下对该模型进行详细分析：

1. 综合实力跨维度领跑，核心指标实现压制。

Vidu Q3与Veo-3.1-Generate-Preview对比中，展现了极强的维度覆盖优势。在决定漫剧叙事张力的核心维度上，Vidu Q3保持领先，如主体一致性(77.78 vs 53.97)、情感表达 (66.48 vs 19.70) 、镜头控制力(49.04 vs 26.07)、在多角度生成(60.00 vs 40.00）等；核心维度均超过10-20分差。

与国内模型对比中，Vidu Q3在主体一致性(77.78)和内容复刻(63.12)上稳居榜首。在漫剧创作中关键的情感表达上，Vidu Q3显著拉开了与次优模型(66.48 vs 49.26)的距离，证明了其在赋予AI角色生命力、统一叙事风格方面的卓越表现。

2. 稳定性表现卓越，精准赋能漫剧全场景落地

Vidu Q3不仅以57.45分强势登顶总榜，更在基础能力(55.79分)和动态表现(59.10分)均夺得桂冠，能够匹配不同行业的应用需求。同时，在面对高强度的多维压力测试时，Vidu Q3仍能保持100%的模型回复率，稳定性拉满，可满足主流应用的核心诉求。

提示词：@图3的暴雨巷道中，0~1.5s：低角度急速推近，聚焦@图1的男性人物拔刀瞬间，清晰呈现高频振动的@图2的长刀出鞘时蓝色能量纹路点亮过程，刀锋划破雨幕产生第一道高温蒸汽雾气，风衣下摆随爆发力向后剧烈翻飞，严格复刻角色机械义眼光效。1.5~3.0s：侧面跟随滑步视角，人物贴地极速突进，长刀挥出完美蓝色电弧弧线，还原雨水被劈开的真空通道，通道边缘雨水气化凝结冰晶碎片，高密度粒子解算，保留武器金属质感与能量纹路。3.0~5.0s：仰拍快速旋转，捕捉腾空回旋斩，蓝色电弧与刀身轨迹毫秒级同步，能量波纹与霓虹光影、雨雾形成复杂体积光交互，无动态模糊细节丢失，定格冰晶炸裂瞬间，保持电影级动作连贯与特效精度。

各头部模型效果展示

# 总体测评分析及结论

1.综合实力重塑格局：国内模型实现领先，全面超越海外模型。

在总榜中，生数科技的Vidu Q3以57.45分的高分断层领先，位列榜首；爱诗科技的 PixVerse C1(50.27)与Vidu Q2(47.98) 紧随其后。相比之下，海外代表模型Google的 Veo-3.1-Generate-Preview仅位列中下游（40.56分）。这表明在 AI 漫剧这一复杂叙事领域，国内头部模型已成功构筑起技术壁垒，实现了对国际模型的群体性超越。

从一级维度观察，Vidu Q3是唯一在基础能力(55.79) 与动态表现(59.10) 上均实现领跑的模型，均领先次席模型超5分，展现了极强的工业化成片潜力。同时，行业内出现了明显的能力偏科：如Vidu Q2和 Kling-V3-Omni更侧重基础能力，而Doubao-Seedance-2.0 则在动态表现上展现出更强的爆发力。

2.行业发展呈现结构性分化：一致性技术成熟，复杂画面生成仍是共同瓶颈。

行业平均数据显示，在生成漫剧内容时，主体一致性(63.72) 、画面一致性(63.33) 维度已进入发展区，标志着叙事连续性的核心痛点已被初步攻克。然而，全行业在多角度生成 (33.34) 、人物质感(35.11)、情感表达(37.38)与动作表现力(39.69) 维度依然深陷薄弱区。这反映出在追求“动态自由”与“电影级质感”的道路上，行业仍面临严峻的技术挑战。

# 加入社群

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

模型体验地址

[1] Vidu Q3, Vidu Q2：https://www.vidu.cn/home/recommend

[2] PixVerse C1, PixVerse V5.6：https://pai.video/onboard

[3] Kling-V3-Omni：https://klingai.com/app/omni/new?model=video

[3] Veo-3.1-Generate-Preview：https://aistudio.google.com/prompts/new_video?model=veo-3.1-generate-preview

[3] Doubao-Seedance-2.0：https://jimeng.jianying.com/ai-tool/generate?type=video&workspace=0

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。