千问全模态Qwen3.5-Omni上线,支持文本、图片、音频和音视频理解
发布时间:2026-03-30来源:鞭牛士
3月30日,千问今日宣布,全模态Qwen3.5-Omni上线。
据介绍,Qwen3.5-Omni 是Qwen最新一代全模态大模型,支持文本、图片、音频、音视频理解。

结构上,Qwen3.5-Omni的 Thinker与Talker 均采用 Hybrid-Attention MoE 架构。Qwen3.5-Omni 系列包含Plus, Flash, Light三种尺寸的Instruct版本,支持 256k 长上下文,模型支持超过 10 小时的音频输入及超过 400 秒的 720P (1 FPS)音视频输入。
模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练,该模型展现出卓越的全模态感知与生成能力。
相比Qwen3-Omni, Qwen3.5-Omni 多语言能力大大增强,能够支持113种语种和方言的语音识别和36种语种和方言的语音生成。
官方表示,目前可通过Offline API和Realtime API进行体验。
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。
