Agnes AI把全模态模型打到免费，Token终于可以放心烧了｜甲子光年

发布时间：2026-06-01来源：甲子光年

当Token不再是最先被精算的成本项，AI才更容易从“演示能力”走向“日常能力”。

对押注Token成本会越来越贵的人来说，过去的一周可能并不友好。

继DeepSeek宣布永久降价，小米Mimo、天工SkyClaw 等模型陆续跟进后，Agnes AI 又把竞争推向全模态领域：官方宣布，自6月1日起，旗下核心全模态模型 API 面向全球开发者与创作者无限期免费开放。

这次免费开放覆盖文本、图像、视频三条模型线，包括Agnes-2.0-Flash、Agnes-Image-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0。它面向的不只是单点模型能力，而是一套更完整的多模态自动化生产流程：

Agnes-2.0-Flash承担文本理解、任务规划与Agent执行的底座角色；Agnes-Image-2.1-Flash面向高频视觉生产，覆盖文生图、图生图、多图合成、局部修改等任务；Agnes-Video-V2.0 则支持原生音视频联合生成，面向短视频、广告、AI漫剧和影视预演等场景。

此前，相关模型已进入ClawEval、Artificial Analysis等榜单，并因性能与性价比受到开发者社区关注。消息发布后，Reddit、X以及多个开发者论坛围绕Agnes模型的讨论明显升温。

当Token不再是最先被精算的成本项，AI才更容易从“演示能力”走向“日常能力”。对于开发者和创作者而言，这意味着可以更高频地试错、更持续地迭代，也更容易把Agent、图像生成、视频生成等能力嵌入真实工作流。

1.Agnes-2.0-Flash：

面向Agent与长任务的底座模型

Agnes-2.0-Flash模型支持百万Token上下文，深度适配各类Agent工作流与长任务。它覆盖长上下文理解、复杂任务规划、工具调用、多轮对话、代码生成、网页构建和数据分析等场景，即使在超长上下文中，也强调语义一致性与推理连贯性。

模型通过大规模预训练与多阶段指令微调，实现通用智能能力与长上下文推理能力的协同提升，可在OpenClaw、Hermes、Claude Code、Codex、Workbuddy等主流Agent环境中运行，也适用于智能助手、企业知识系统、代码开发平台和多模态应用。

从定位上看，它并不只是一个“聊天模型”，而更接近Agent执行链条中的决策与调度层。一个完整的Agent任务往往需要读取资料、理解上下文、调用搜索或代码工具、处理文件、生成报告或代码，并根据反馈持续修正。Agnes-2.0-Flash面向的正是这种多步骤、多工具、长链路的使用方式。

在应用构建场景中，Agnes-2.0-Flash的价值主要体现在两点：一是能够理解较长、较复杂的产品需求；二是能够将需求拆解成各种复杂的页面结构、交互逻辑和代码实现，包括应用、交互游戏、研究报告等。

2.不止是静态页面，复杂场景也能落地

Agnes-2.0-Flash可生成具备生产级布局、真实导航流程和完整交互状态的应用界面，覆盖多页面结构、列表筛选、详情页、表单、移动端适配等常见产品形态。

覆盖应用与网站生成，多场景应用构建表现亮眼

在社交应用生成任务中，Agnes-2.0-Flash展现出较完整的产品结构组织能力。以构建一个Instagram风格的社交应用为例，模型不仅生成了Feed流、Stories、发帖入口、通知、个人主页、图片网格和移动端底部导航等核心模块，还补充了基础动画效果，使页面更接近真实移动端产品形态。

而在我们常见的“背单词”应用场景，模型生成的产品整体风格偏轻量化，页面UI简洁，每日单词学习、单词卡片展示、背词交互、学习进度、AI记忆辅助和复习模式等模块被放置在较合理的位置。

游戏与模拟均可落地，复杂交互也能实现

Agnes 2.0Flash可生成可运行的交互式游戏与物理模拟，不只输出页面结构，还能处理动画循环、碰撞检测、游戏规则、状态管理和用户输入，部分场景还可延伸到摄像头输入与手势交互。

游戏生成比普通页面更考验交互逻辑和状态管理。制作横版城市街头射击小游戏时，模型不仅生成了画面结构，也处理了移动、射击、碰撞和反馈等基础游戏机制。

从选题到可视化，研究报告一键成页

模型可以围绕开放主题进行信息组织、数据整理、页面设计和可视化呈现，将自然语言需求转化为可交互的网页报告。

研究报告类任务中，模型不仅能够组织分析内容，还能将图表、数据展示、页面排版乃至地图效果整合为网页报告，体现出“内容生成、信息可视化、前端呈现”一体化能力。

3.Agnes-Image-2.1-Flash：

一句话生图改图

Agnes Image 2.1 flash支持文生图、图生图、多图合成、局部修改、背景替换、风格转换、文字编辑、图像修复等多种图像生成和编辑任务，可广泛应用于电商主图、广告素材、社交媒体配图、产品海报、人像编辑，以及需要快速迭代的创意工作流。

模型重点优化了精准编辑、文字生成与排版、真实感表现以及多元美学风格表达能力。它能够在执行用户修改意图的同时，保留原始主体结构、空间关系和视觉风格；也能根据不同创作需求生成写实摄影、商业广告、潮流插画、复古拼贴、3D渲染、动漫风格等多种视觉风格。

同时，模型进一步强化了文字生成与版式排布能力，可用于高密度信息图、产品海报、说明图、图文混排内容等复杂视觉素材，让图像不仅“好看”，也更能承载清晰、完整的信息表达。

4.生图改图全能，文字排版一样稳

告别“AI网红脸”，人像写实有辨识度

Agnes-Image-2.1-Flash可生成自然写实、细节丰富、辨识度高的人像图像。即使未明确指定五官细节时，模型也能生成符合人物身份、情绪和场景氛围的面孔，而没有常见的“AI感”。

让模型生成一张先锋时尚杂志人物封面，画面中的模特有不规则黑短发、浅雀斑和镭射亮片眼妆等细节，整体不是常见的“AI网红脸”，有一定的辨识度。

多人自拍场景中，四位年轻女性贴脸自拍，面部关系、人物层次和画面氛围没有明显混乱。

写实广告动漫拼贴风格随意切换

模型可适配写实摄影、纪录片风格、商业广告、复古拼贴、动漫、3D渲染等多种视觉语言。

1990年代农村庭院婚宴场景图片，年代氛围和复古滤镜氛围到位。

模型对概念化视觉语言理解也不错，生成的超现实主义拼贴女性肖像垂直两半——左为黑色剪影，圆形镂空透出天空，枯枝穿洞生长。画面复古，且带有较强的视觉隐喻。

吉卜力动画风格也完全没有压力，地中海阳台场景呈现出柔和、温暖的气质。红墙、米色碎石地砖和斑驳树影组合在一起，光影氛围和画面情绪都比较统一。

在给出了较完整角色设定的青瓷质感盲盒公仔场景中，C4D渲染感也比较明显，适合IP概念图、电商展示和潮玩设定场景。

文字清晰可辨，高信息密度图也能扛

模型可自然生成菜谱、说明书等高信息密度图，以及小红书、抖音、微博、ins、X等APP应用UI图，文字准确而没有扭曲变形或模糊，市面场景应用UI场景也与实际匹配。

高信息密度海报是图像模型常见难点。在模型生成的横版工业工程风格的高级技术信息海报中，以深海军蓝+钢灰色的技术图纸为背景，中心呈现一个极高精度的涡轮机转子组件（涡轮盘与叶片）写实渲染图，画面既保留了工业图纸感，也维持了相对清晰的文本解释和信息层级。

App界面生成方面，真实iPhone屏幕中的X/Twitter深色模式首页信息流的生成结果，在布局、卡片结构、信息流密度和移动端界面形态上都比较接近真实应用

一句话精准编辑，想改哪里改哪里

对于用户自然语言指定的待修改范围，模型可进行局部精准修改，在严格保持画面中其他元素、结构与细节不变的条件下生成自然融合的结果。

将天花板的玻璃穹顶变成彩色的花窗玻璃，除穹顶本身发生变化外，画面其他结构基本保持稳定，扶梯扶手上还生成了花窗玻璃的倒影，使结果更符合真实光影逻辑。

给人物左手增加一个红色的手提包，模型只改了该改的部分，并未破坏人物姿态、服装、背景和原始画面关系。

主体一致性更稳，多角度场景生成不跑偏

在不同场景下，模型均能保持产品或人物一致性，适合AI短剧生图、电商场景广告等多种场景。

将图像变为俯视图，同时在桌面空白处添加一杯果汁。这个案例同时考验空间关系、桌面布局和新增物体融合度，生成结果没有明显破坏原画面的结构关系。

5.Agnes Video V2.0：

原生音视频联合生成，电影级画质与运镜

Agnes-Video-V2.0基于Diffusion Transformer(DiT)架构，支持原生音视频联合生成。与“先生成画面、再后期拼接声音”的方式不同，Agnes-Video-V2.0在统一潜空间中同时处理视频与音频，使人物台词、口型匹配、动作节奏、环境音效和镜头变化能够在生成过程中自然对齐。

参数层面，Agnes-Video-V2.0支持最高1080p、25fps，支持16:9、9:16等常见影视和短视频画幅，最长可生成20秒视频，并支持文生视频、首尾帧生视频和多帧生视频。

模型重点优化人物一致性、场景连贯性、台词口型匹配、电影感视觉风格和运镜能力，可广泛应用于AI漫剧、AI真人影视预演、广告创意、短视频创作、音乐MV和概念设计。

6.原生音画同出，一键生成完整视频

人物微表情生成，情绪递进自然

模型可生成细腻的人物面部表情、动作和情绪变化，适合短剧、广告、角色动画和剧情分镜。

年轻男子站在镜子前，从刻意练习一个明显不自然的假笑到皱眉，再到流露出真实的悲伤。整个片段的情绪连续递进，显示模型对表情变化和情绪层次有一定把握。

在音画同步生成的基础上，模型进一步提升了中英文语音、口型、人物表情和动作之间的一致性，语音整体较清晰，断句自然，能够根据句子语气呈现出轻重音变化，偏剧情的视频片段则会带有更明显的情绪色彩和表演停顿。

英文对白场景采用更克制的夫妻互动。妻子先温柔看着丈夫，随后因丈夫咳嗽露出担忧，丈夫微笑安抚，她再逐渐放松并靠在丈夫肩上。英文台词与人物动作、表情和节奏之间形成了较自然的对应关系。

多人场景不乱套，互动关系清晰有层次

Agnes-Video-V2.0在两人对话、多人同框、物品交接、人物与动物互动等场景中，能够根据叙事层次，生成相对清晰的互动关系（动作先后顺序、视线方向），前后景层次，镜头也可以配合互动关系进行推近、横移、环绕或从全景切到中近景。

支持复杂镜头语言理解与生成

在同一段视频中，模型可以根据提示词理解并生成推轨、横摇、升降、环绕、俯冲、跟拍、手持呼吸感等镜头语言，并将其与人物动作或场景变化结合。

开场骨骼手握玫瑰的特写，随着手沉入土壤，画面转为少女星空眼眸的特写与落泪细节。

首帧图生视频，画面自然动起来

Agnes-Video-V2.0支持基于首帧图生成视频，在尽量保持原图主体、构图、文案位置与整体视觉风格不变的前提下，为画面增加可传播的动态效果，让静态KV、宣传海报或角色主视觉升级为更有氛围感的短视频素材。

锁定上传的海报作为首帧，画面中心的番茄汁和文字不动，仅让鲜红的果汁在瓶子周围缓缓流淌、飞溅出细小的液滴，营造出一种果汁鲜美欲滴、高级且诱人的动态质感。

AI漫剧一条龙，支持多风格内容创作

创作者可以先通过Agnes-Image-2.1-Flash模型生成角色设定和关键帧，再用Agnes Video V2.0模型把关键帧扩展成动态镜头，最后组合成连续剧情。对于AI漫剧尤为关键的角色一致性、角色表演、情绪递进、镜头切换和分镜节奏，Agnes模型都具备较好的支持能力，并可适配国风、二次元、奇幻、都市短剧等多种风格。

7.如何使用

目前，Agnes 2.0和2.1系列模型已接入Agnes产品体系。普通用户可以登录Agnes Web端或Agnes App直接使用，非付费用户默认可调用模型，无需额外配置Agent环境。Agnes旗下视频应用PAVO也可以直接使用相关图片模型和视频模型。

Agnes 2.0和2.1系列模型自6月1日起，面向全球开发者和创作者无限期免费开放使用。用户可以在真实任务中体验Agnes全模态模型在长上下文理解、多轮任务执行、代码生成、工具调用、应用构建、图像生成与编辑、音画同步视频生成等方面的能力。

对于开发者，Agnes 2.0 flash、Agnes-Image-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0同步通过Agnes AI官网Platform开放API免费调用。

开发者注册Agnes Platform账号并获取API Key后，即可通过兼容OpenAI和Anthropic的接口接入现有应用或Agent框架。

Agnes全模态模型的免费开放，不是一次价格动作，而是Agnes AI产品体系中的一次底层能力释放。

在Agnes的产品体系中，Agnes-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0承担的是文本、图像、视频三条模型能力的基础升级：前者面向长上下文理解、复杂任务规划、工具调用和Agent执行；图像模型面向高频视觉生成、精准编辑、多图合成和商业素材迭代；视频模型则进一步把画面生成、人物一致性、镜头语言和音画同步推向可用阶段。

此外，从商业模式来看，Agnes此次免费开放全模态模型，并不意味着其产品体系将全面转向免费。据了解，Agnes API的免费开放范围仅限于2.0与2.1系列模型。未来，新一代升级模型API、更高调用额度以及更强并发能力，预计仍将优先面向付费用户开放。

面向B端企业合作，Agnes仍可通过企业级API服务实现商业化，包括提供更高额度、更稳定的SLA保障，以及定制化接入与部署能力。同时，Agnes旗下C端产品也会成为重要付费入口，例如Agnes与PAVO的Web/App，面向高频创作者提供更完整的Harness产品能力与增值服务。

当文本、图像、视频模型同时进入免费开放区间，AI的使用门槛也随之被重新定义。过去，多模态创作和Agent应用往往卡在成本、调用频率和试错压力上；而Agnes这次要推动的，是让全模态模型从“可体验”“可展示”，进一步进入“可高频调用、可持续迭代、可真实落地”的阶段。

官方模型配置文档：

https://agnes-ai.com/doc/%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87#36d4a189-eee5-8011-8599-ea3576525493

点击文末“阅读原文”，即可访问Agnes AI

（封面图来源：Agnes AI）

END.

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。