断层领先!OpenAI最强绘图模型ChatGPT Images 2.0来了
前几天还在灰度测试的ChatGPT Images 2.0它来了:再封神!OpenAI掀翻AI图像生成,极度逼真,立刻商用。
Arena测评出炉,断层领先所有图像生成模型。

这是一个有超强世界知识,真正能够思考视觉设计的模型。
不需要复杂提示词,它自己思考,直接交付给你完美图像。是个能精准处理多语言文本、多重构图规则的专业视觉设计模型。
绘图工具进化为视觉系统
ChatGPT Images 2.0跨越了渲染工具的定位,正式成为参与战略设计的视觉系统。
大幅提升了模型遵循复杂指令的精确度。用户现在可以准确放置物体,处理密集的文本,调整对象间的空间关系。
模型在细节呈现和风格保真度上实现了质的飞跃。
最高可以生成2K分辨率的图像。细小的文本、用户界面元素和密集的构图不再是导致画面崩溃的短板。用户得到的不再是模棱两可的草图,是可以直接投入生产的成品。
我们可以通过一个复杂的桌面截图指令来观察这种精确度。
看下面这个屏幕截图,你能看出来是生成的吗?

面对极度复杂的排版需求,系统同样能保持清晰的逻辑。要求制作一张名为一次创造万物的主题杂志页时,模型不仅能容纳科学图表、中世纪手稿、植物插图、气候图表甚至用户界面截图等数十种视觉元素,还能维持博物馆宣言般的优雅排版,避免沦为死板的网格拼凑。

微观细节的控制力同样令人惊叹。在成千上万粒米堆积的画面中,系统能够在其中唯一一颗米粒上刻下细微的字样,同时保证这颗米粒的大小颜色与周围完全一致,完美融入背景。

除了微观刻画,系统在模拟现实质感和特定排版风格上也展现出极强的适应力。无论是制作一本排版精良的北美狼群科普杂志,还是伪造一张带有咖啡渍的、笔迹深浅不一的手写棒球历史论文照片,模型都能精准捕捉人类视觉文化中的特征。


新系统能精准复刻35毫米胶片的颗粒感、自然的光线和随意的构图,也能生成无尽嵌套的课堂幻灯片画面,甚至完美还原高级时尚摄影集的质感。



风格的宽容度扩展到了动漫和游戏开发领域。创作者可以轻松生成日本青年漫画风格的页面,或者根据文字描述直接生成包含角色各种设定的动漫角色设计图。


构图的灵活性也得到了彻底释放。系统支持从3比1的超宽全景到1比3的超长画幅生成。用户可以为书店制作带有出血线和安全边距的装饰艺术风格书签,或者生成一张犹如童话故事般垂直延伸的长图。



跨越语言和时代限制
过去很长一段时间里,图像模型在处理英语和拉丁语系时表现出色,面对非拉丁语系时却经常出错。文本稍显密集,画面就会变成难以辨认的乱码。
研发团队彻底打破了语言壁垒。新系统在非拉丁文本渲染上取得了突破性进展,尤其是日语、韩语、中文、印地语和孟加拉语。文本不再仅仅是贴在画面上的标签,语言成为了视觉设计本身的有机组成部分。
要求生成一页带有日文对话的少年冒险漫画时,系统不仅能正确拼写日文,还能结合剧情需求进行合理的分镜设计。

在展现印度语言多样性的摄影作品中,模型可以毫无压力地在一排书架上同时呈现印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、乌尔都语、古吉拉特语、卡纳达语和奥迪亚语的虚构艺术书籍封面,字迹清晰可见。

中文的渲染能力达到了能够直接绘制长篇连环漫画的程度。在一个包含五个段落的超长测试指令中,用户要求绘制一篇关于OpenAI研究科学家陈博远的中文漫画。漫画需要包含特定的背景彩蛋、极小的中文脚注、多语言展示屏幕,甚至还要在最后安排一个关于中文互联网梗的搞笑结局。系统一次性完美输出了整张包含复杂中文对话和多重分镜的漫画页。

此外,无论是制作韩语的高端传统房屋住宿宣传卡片,还是日文排版风格的多语言字体海报,模型都能展现出极高的专业水准。


除了语言的跨越,系统更新了现实世界的信息库,知识截止日期推迟到了2025年12月。充沛的知识储备让模型能够端到端地处理复杂任务。只需一句指令,系统就能合成信息,规划留白,输出带有康托尔对角线证明过程的逻辑图解,或者制作2025年最新设计趋势的海报。


会思考的视觉工作伙伴
当用户在对话界面中选择思考模型时,图像生成将获得智能体能力。系统会利用网络寻找相关信息,消化上传的参考资料,并在生成前对图像结构进行深度推理。
最颠覆行业传统工作流的改变在于一次性并发生成。系统现在能一次生成最多8张相互独立又彼此连贯的图像。想要为一个抹茶店制作适配各个社交平台不同比例的宣传图,只需一次对话即可完成。




长篇幅的故事创作变得轻而易举。要求创作水豚和海獭去法国南部旅行的复古漫画时,系统能在连续的多页画面中保持角色特征和物品状态的绝对连贯。




基于文档直接生成复杂版面也成为现实。用户上传学术论文的PDF文件后,系统会自动提取重要的图表数据,将其转化为专业的横幅学术海报。面对逻辑证明题目,模型会在黑板上清晰地展示奇数之和等于平方数的数学推导过程。

诚实面对当前的物理限制
在Codex中,图像生成被整合进了统一的工作区。开发者无需离开编程界面,就能生成各种UI设计方向的草图并快速转换为实际应用代码。
超级APP的版块又拼上了强力的一角。
尽管跨越了众多技术鸿沟,工程师们依然坦陈了当前模型的局限性。处理需要完整连贯物理世界模型的任务时,系统依然会显得力不从心。
折纸指南、魔方等带有严密空间逻辑的谜题依然是模型的软肋。要求图形在隐藏面、倾斜面或翻转面上准确呈现时,错误率依然很高。细沙等极度密集或重复的视觉细节,也会不断试探系统的极限边界。带有精确箭头指示的医学或机械图表标签,依然需要人类进行最后的准确性审查。
现在,所有免费用户都能体验到这项全新的图像服务。付费用户和企业客户则能解锁包含深度思考的进阶功能。
参考资料:
https://openai.com/index/introducing-chatgpt-images-2-0/
END
点击图片立即报名👇️





