DeepSeek多模态要来了,「识图模式」开启灰度
发布时间:2026-04-29来源:夕小瑶科技说
刚刚,DeepSeek 的「识图模式」开始灰度了。
网页版和 App 里,有些用户已经能看到它和「快速模式」「专家模式」并列出现。

后端配置里也能看到“name: 识图模式、description: 图片理解功能内测中”,这些字段。

5 天前,DeepSeek 刚发布 V4 预览版。现在,鲸鱼终于睁眼了。
DeepSeek 识图模式刚灰度,民间评测已经开始了。大家打开手机相册,直接出题:数手指、认动漫、看表情包、读截图、猜商品、找隐藏信息、判断一只猫到底是不是「被迫营业」。
我从夕小瑶Family群和网上挑了一些网友测试case,给大家先过过眼。
◈第一关,看见
之前Deepseek只能识别图片里的文字,现在可以理解图片了。

这类题测的是视觉模型的基础能力。

包括这个恐龙,都能用代码画出来了。那看起来,在这类题上,DeepSeek 已经cover住了。
至少从用户截图看,它不是过去那种只会 OCR 的状态,真的把画面元素一起读进去了。
入门关,完美通过。
◈第二关,懂梗
网友最爱测的第二类题,是文化语境题。

它要求模型知道画面之外的东西。
谁是特朗普?谁是鲁路修?必须先知道才能答上来。这类题会结合一部分世界知识,考验理解能力。
还有这个,这个小猫给人一种什么感觉?

可以看到,对情绪的理解也相当到位。能看懂主体是啥,还能看懂大家为什么转发给它,第二关,过!
◈第三关,别装懂
下面是更难的第三关,反直觉题。
比如数手指、视错觉、隐藏图案、低清截图、故意模糊的二创图。
这些题很烦。它们不只考模型看没看见,还考模型逻辑推理能力。

就比如这个比大小。。

看起来,需要多让他思考几遍才能弄得明白。
DeepSeek一直以来最大的短板就是多模态。语言和推理能力卷到第一梯队了,但视觉理解一直缺位。现在补上识图,终于补了一块「多模态」短板。


转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。
