Agnes AI把全模态模型打到免费,Token终于可以放心烧了|甲子光年


当Token不再是最先被精算的成本项,AI才更容易从“演示能力”走向“日常能力”。
对押注Token成本会越来越贵的人来说,过去的一周可能并不友好。
继DeepSeek宣布永久降价,小米Mimo、天工SkyClaw 等模型陆续跟进后,Agnes AI 又把竞争推向全模态领域:官方宣布,自6月1日起,旗下核心全模态模型 API 面向全球开发者与创作者无限期免费开放。
这次免费开放覆盖文本、图像、视频三条模型线,包括Agnes-2.0-Flash、Agnes-Image-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0。它面向的不只是单点模型能力,而是一套更完整的多模态自动化生产流程:
Agnes-2.0-Flash承担文本理解、任务规划与Agent执行的底座角色;Agnes-Image-2.1-Flash面向高频视觉生产,覆盖文生图、图生图、多图合成、局部修改等任务;Agnes-Video-V2.0 则支持原生音视频联合生成,面向短视频、广告、AI漫剧和影视预演等场景。
此前,相关模型已进入ClawEval、Artificial Analysis等榜单,并因性能与性价比受到开发者社区关注。消息发布后,Reddit、X以及多个开发者论坛围绕Agnes模型的讨论明显升温。
当Token不再是最先被精算的成本项,AI才更容易从“演示能力”走向“日常能力”。对于开发者和创作者而言,这意味着可以更高频地试错、更持续地迭代,也更容易把Agent、图像生成、视频生成等能力嵌入真实工作流。
1.Agnes-2.0-Flash:
面向Agent与长任务的底座模型

Agnes-2.0-Flash模型支持百万Token上下文,深度适配各类Agent工作流与长任务。它覆盖长上下文理解、复杂任务规划、工具调用、多轮对话、代码生成、网页构建和数据分析等场景,即使在超长上下文中,也强调语义一致性与推理连贯性。
模型通过大规模预训练与多阶段指令微调,实现通用智能能力与长上下文推理能力的协同提升,可在OpenClaw、Hermes、Claude Code、Codex、Workbuddy等主流Agent环境中运行,也适用于智能助手、企业知识系统、代码开发平台和多模态应用。
从定位上看,它并不只是一个“聊天模型”,而更接近Agent执行链条中的决策与调度层。一个完整的Agent任务往往需要读取资料、理解上下文、调用搜索或代码工具、处理文件、生成报告或代码,并根据反馈持续修正。Agnes-2.0-Flash面向的正是这种多步骤、多工具、长链路的使用方式。
在应用构建场景中,Agnes-2.0-Flash的价值主要体现在两点:一是能够理解较长、较复杂的产品需求;二是能够将需求拆解成各种复杂的页面结构、交互逻辑和代码实现,包括应用、交互游戏、研究报告等。
2.不止是静态页面,复杂场景也能落地
Agnes-2.0-Flash可生成具备生产级布局、真实导航流程和完整交互状态的应用界面,覆盖多页面结构、列表筛选、详情页、表单、移动端适配等常见产品形态。
覆盖应用与网站生成,多场景应用构建表现亮眼
在社交应用生成任务中,Agnes-2.0-Flash展现出较完整的产品结构组织能力。以构建一个Instagram风格的社交应用为例,模型不仅生成了Feed流、Stories、发帖入口、通知、个人主页、图片网格和移动端底部导航等核心模块,还补充了基础动画效果,使页面更接近真实移动端产品形态。
而在我们常见的“背单词”应用场景,模型生成的产品整体风格偏轻量化,页面UI简洁,每日单词学习、单词卡片展示、背词交互、学习进度、AI记忆辅助和复习模式等模块被放置在较合理的位置。
游戏与模拟均可落地,复杂交互也能实现
Agnes 2.0Flash可生成可运行的交互式游戏与物理模拟,不只输出页面结构,还能处理动画循环、碰撞检测、游戏规则、状态管理和用户输入,部分场景还可延伸到摄像头输入与手势交互。
游戏生成比普通页面更考验交互逻辑和状态管理。制作横版城市街头射击小游戏时,模型不仅生成了画面结构,也处理了移动、射击、碰撞和反馈等基础游戏机制。
从选题到可视化,研究报告一键成页
模型可以围绕开放主题进行信息组织、数据整理、页面设计和可视化呈现,将自然语言需求转化为可交互的网页报告。
研究报告类任务中,模型不仅能够组织分析内容,还能将图表、数据展示、页面排版乃至地图效果整合为网页报告,体现出“内容生成、信息可视化、前端呈现”一体化能力。
3.Agnes-Image-2.1-Flash:
一句话生图改图
Agnes Image 2.1 flash支持文生图、图生图、多图合成、局部修改、背景替换、风格转换、文字编辑、图像修复等多种图像生成和编辑任务,可广泛应用于电商主图、广告素材、社交媒体配图、产品海报、人像编辑,以及需要快速迭代的创意工作流。
模型重点优化了精准编辑、文字生成与排版、真实感表现以及多元美学风格表达能力。它能够在执行用户修改意图的同时,保留原始主体结构、空间关系和视觉风格;也能根据不同创作需求生成写实摄影、商业广告、潮流插画、复古拼贴、3D渲染、动漫风格等多种视觉风格。
同时,模型进一步强化了文字生成与版式排布能力,可用于高密度信息图、产品海报、说明图、图文混排内容等复杂视觉素材,让图像不仅“好看”,也更能承载清晰、完整的信息表达。
4.生图改图全能,文字排版一样稳
告别“AI网红脸”,人像写实有辨识度
Agnes-Image-2.1-Flash可生成自然写实、细节丰富、辨识度高的人像图像。即使未明确指定五官细节时,模型也能生成符合人物身份、情绪和场景氛围的面孔,而没有常见的“AI感”。
让模型生成一张先锋时尚杂志人物封面,画面中的模特有不规则黑短发、浅雀斑和镭射亮片眼妆等细节,整体不是常见的“AI网红脸”,有一定的辨识度。

多人自拍场景中,四位年轻女性贴脸自拍,面部关系、人物层次和画面氛围没有明显混乱。

写实广告动漫拼贴风格随意切换
模型可适配写实摄影、纪录片风格、商业广告、复古拼贴、动漫、3D渲染等多种视觉语言。
1990年代农村庭院婚宴场景图片,年代氛围和复古滤镜氛围到位。

模型对概念化视觉语言理解也不错,生成的超现实主义拼贴女性肖像垂直两半——左为黑色剪影,圆形镂空透出天空,枯枝穿洞生长。画面复古,且带有较强的视觉隐喻。

吉卜力动画风格也完全没有压力,地中海阳台场景呈现出柔和、温暖的气质。红墙、米色碎石地砖和斑驳树影组合在一起,光影氛围和画面情绪都比较统一。

在给出了较完整角色设定的青瓷质感盲盒公仔场景中,C4D渲染感也比较明显,适合IP概念图、电商展示和潮玩设定场景。

文字清晰可辨,高信息密度图也能扛
模型可自然生成菜谱、说明书等高信息密度图,以及小红书、抖音、微博、ins、X等APP应用UI图,文字准确而没有扭曲变形或模糊,市面场景应用UI场景也与实际匹配。
高信息密度海报是图像模型常见难点。在模型生成的横版工业工程风格的高级技术信息海报中,以深海军蓝+钢灰色的技术图纸为背景,中心呈现一个极高精度的涡轮机转子组件(涡轮盘与叶片)写实渲染图,画面既保留了工业图纸感,也维持了相对清晰的文本解释和信息层级。

App界面生成方面,真实iPhone屏幕中的X/Twitter深色模式首页信息流的生成结果,在布局、卡片结构、信息流密度和移动端界面形态上都比较接近真实应用

一句话精准编辑,想改哪里改哪里
对于用户自然语言指定的待修改范围,模型可进行局部精准修改,在严格保持画面中其他元素、结构与细节不变的条件下生成自然融合的结果。
将天花板的玻璃穹顶变成彩色的花窗玻璃,除穹顶本身发生变化外,画面其他结构基本保持稳定,扶梯扶手上还生成了花窗玻璃的倒影,使结果更符合真实光影逻辑。

给人物左手增加一个红色的手提包,模型只改了该改的部分,并未破坏人物姿态、服装、背景和原始画面关系。

主体一致性更稳,多角度场景生成不跑偏
在不同场景下,模型均能保持产品或人物一致性,适合AI短剧生图、电商场景广告等多种场景。
将图像变为俯视图,同时在桌面空白处添加一杯果汁。这个案例同时考验空间关系、桌面布局和新增物体融合度,生成结果没有明显破坏原画面的结构关系。


5.Agnes Video V2.0:
原生音视频联合生成,电影级画质与运镜
Agnes-Video-V2.0基于Diffusion Transformer(DiT)架构,支持原生音视频联合生成。与“先生成画面、再后期拼接声音”的方式不同,Agnes-Video-V2.0在统一潜空间中同时处理视频与音频,使人物台词、口型匹配、动作节奏、环境音效和镜头变化能够在生成过程中自然对齐。
参数层面,Agnes-Video-V2.0支持最高1080p、25fps,支持16:9、9:16等常见影视和短视频画幅,最长可生成20秒视频,并支持文生视频、首尾帧生视频和多帧生视频。
模型重点优化人物一致性、场景连贯性、台词口型匹配、电影感视觉风格和运镜能力,可广泛应用于AI漫剧、AI真人影视预演、广告创意、短视频创作、音乐MV和概念设计。
6.原生音画同出,一键生成完整视频
人物微表情生成,情绪递进自然
模型可生成细腻的人物面部表情、动作和情绪变化,适合短剧、广告、角色动画和剧情分镜。
年轻男子站在镜子前,从刻意练习一个明显不自然的假笑到皱眉,再到流露出真实的悲伤。整个片段的情绪连续递进,显示模型对表情变化和情绪层次有一定把握。
在音画同步生成的基础上,模型进一步提升了中英文语音、口型、人物表情和动作之间的一致性,语音整体较清晰,断句自然,能够根据句子语气呈现出轻重音变化,偏剧情的视频片段则会带有更明显的情绪色彩和表演停顿。
英文对白场景采用更克制的夫妻互动。妻子先温柔看着丈夫,随后因丈夫咳嗽露出担忧,丈夫微笑安抚,她再逐渐放松并靠在丈夫肩上。英文台词与人物动作、表情和节奏之间形成了较自然的对应关系。
多人场景不乱套,互动关系清晰有层次
Agnes-Video-V2.0在两人对话、多人同框、物品交接、人物与动物互动等场景中,能够根据叙事层次,生成相对清晰的互动关系(动作先后顺序、视线方向),前后景层次,镜头也可以配合互动关系进行推近、横移、环绕或从全景切到中近景。
支持复杂镜头语言理解与生成
在同一段视频中,模型可以根据提示词理解并生成推轨、横摇、升降、环绕、俯冲、跟拍、手持呼吸感等镜头语言,并将其与人物动作或场景变化结合。
开场骨骼手握玫瑰的特写,随着手沉入土壤,画面转为少女星空眼眸的特写与落泪细节。
首帧图生视频,画面自然动起来
Agnes-Video-V2.0支持基于首帧图生成视频,在尽量保持原图主体、构图、文案位置与整体视觉风格不变的前提下,为画面增加可传播的动态效果,让静态KV、宣传海报或角色主视觉升级为更有氛围感的短视频素材。
锁定上传的海报作为首帧,画面中心的番茄汁和文字不动,仅让鲜红的果汁在瓶子周围缓缓流淌、飞溅出细小的液滴,营造出一种果汁鲜美欲滴、高级且诱人的动态质感。
AI漫剧一条龙,支持多风格内容创作
创作者可以先通过Agnes-Image-2.1-Flash模型生成角色设定和关键帧,再用Agnes Video V2.0模型把关键帧扩展成动态镜头,最后组合成连续剧情。对于AI漫剧尤为关键的角色一致性、角色表演、情绪递进、镜头切换和分镜节奏,Agnes模型都具备较好的支持能力,并可适配国风、二次元、奇幻、都市短剧等多种风格。
7.如何使用
目前,Agnes 2.0和2.1系列模型已接入Agnes产品体系。普通用户可以登录Agnes Web端或Agnes App直接使用,非付费用户默认可调用模型,无需额外配置Agent环境。Agnes旗下视频应用PAVO也可以直接使用相关图片模型和视频模型。
Agnes 2.0和2.1系列模型自6月1日起,面向全球开发者和创作者无限期免费开放使用。用户可以在真实任务中体验Agnes全模态模型在长上下文理解、多轮任务执行、代码生成、工具调用、应用构建、图像生成与编辑、音画同步视频生成等方面的能力。
对于开发者,Agnes 2.0 flash、Agnes-Image-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0同步通过Agnes AI官网Platform开放API免费调用。
开发者注册Agnes Platform账号并获取API Key后,即可通过兼容OpenAI和Anthropic的接口接入现有应用或Agent框架。
Agnes全模态模型的免费开放,不是一次价格动作,而是Agnes AI产品体系中的一次底层能力释放。
在Agnes的产品体系中,Agnes-2.0-Flash、Agnes-Image-2.1-Flash和Agnes-Video-V2.0承担的是文本、图像、视频三条模型能力的基础升级:前者面向长上下文理解、复杂任务规划、工具调用和Agent执行;图像模型面向高频视觉生成、精准编辑、多图合成和商业素材迭代;视频模型则进一步把画面生成、人物一致性、镜头语言和音画同步推向可用阶段。
此外,从商业模式来看,Agnes此次免费开放全模态模型,并不意味着其产品体系将全面转向免费。据了解,Agnes API的免费开放范围仅限于2.0与2.1系列模型。未来,新一代升级模型API、更高调用额度以及更强并发能力,预计仍将优先面向付费用户开放。
面向B端企业合作,Agnes仍可通过企业级API服务实现商业化,包括提供更高额度、更稳定的SLA保障,以及定制化接入与部署能力。同时,Agnes旗下C端产品也会成为重要付费入口,例如Agnes与PAVO的Web/App,面向高频创作者提供更完整的Harness产品能力与增值服务。
当文本、图像、视频模型同时进入免费开放区间,AI的使用门槛也随之被重新定义。过去,多模态创作和Agent应用往往卡在成本、调用频率和试错压力上;而Agnes这次要推动的,是让全模态模型从“可体验”“可展示”,进一步进入“可高频调用、可持续迭代、可真实落地”的阶段。
官方模型配置文档:
https://agnes-ai.com/doc/%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87#36d4a189-eee5-8011-8599-ea3576525493
点击文末“阅读原文”,即可访问Agnes AI
(封面图来源:Agnes AI)
END.





