客服热线：010-68321050

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

发布时间：2026-04-22来源：智东西

智东西（公众号：zhidxcom）

编译 | 杨京丽

编辑 | 陈骏达

智东西4月23日报道，昨晚，阿里通义千问团队

宣布

开源Qwen3.6-27B——一款270亿参数的稠密多模态模型

，支持思考与非思考模式。

与阿里上一代开源模型Qwen3.5-397B-A17B相比，Qwen3.6-27B以1/15的参数规模，在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及SkillsBench上实现了反超，其编程能力提升明显，同时还具备较强的文本和多模态推理能力。

与相似尺寸的Gemma 4-31B模型对比，Qwen3.6-27B在大部分维度上，展现出较大领先优势。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

随着Qwen3.6-27B的发布，阿里称

Qwen3.6系列已完整发布

，包括开源模型Qwen3.6-35B-A3B和闭源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。

阿里云百炼平台上，现在已经可以看到Qwen3.6-27B的价格，

每百万Token输入价格3元，输出价格18元

。由于Qwen3.6-27B是稠密模型，

价格并不便宜。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

Qwen3.6-27B现已上线Qwen Studio，

并以开源权重形式发布于Hugging Face和ModelScope

，阿里云百炼API即将上线，届时将支持preserve_thinking功能以适配智能体任务。该模型也可

接入OpenClaw、Claude Code、Qwen Code等

主流第三方编程助手。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

体验地址：

开源地址：

一、编程能力：

界面美观、功能完备，

复杂需求一次到位

官方对比了Qwen3.6-27B和Qwen3.5-397B-A17B，

在编程基准上

，Qwen3.6-27B在多方面领先：SWE-bench Verified（77.2 vs. 76.2）、SWE-bench Pro（53.5 vs. 50.9）、Terminal-Bench 2.0（59.3 vs. 52.5）以及SkillsBench（48.2 vs. 30.0）。

在推理任务上

，Qwen3.6-27B 在GPQA Diamond上取得了87.8的成绩，略次于Qwen3.5-397B-A17B的88.4。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

为直观验证Qwen3.6-27B编程能力，智东西进行了如下的几个测试。

首先，我们先让它做了一个跑酷小游戏，测试其

编程和前端能力

，要求满足角色动作、关卡要素、道具系统、UI设计等多维度约束。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

它用时四分钟左右，写完了1200多行代码。从实测结果来看，

游戏设计与前端实现上

，Qwen3.6-27B基本

还原了提示词中列举的全部核心要素

：玩家的跳跃、二段跳等均已实现，添加了无人机、针刺等障碍物，能量电池、金币、磁铁等均可拾取。

美术风格符合设定

，UI层完整展示了血量、分数、速度、距离等指标，

游戏可玩性强

。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

但

细节层面仍存在一些小问题

，针刺悬浮在天上有点怪；吃到电池后，没有能量条显示；撞到箱子，就自动过去了，没有扣除血量。

另外，我们还让Qwen3.6-27B制作了

个人记账应用

，

考察的是模型

应用开发能力和对闭环设计的理解

，包括统计逻辑怎么算、数据怎么持久化、异常输入怎么拦截，比写一个静态页面要复杂得多。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

在应用开发上，Qwen3.6-27B的表现相对稳健

。生成的应用完整实现了记录的增删改查、按月份筛选、总收入/总支出/结余的统计以及近7天收支趋势图表，刷新页面后数据没有丢失，说明localStorage持久化已正确实现。

唯一的小Bug是刷新页面后，7日收支柱状图一度不显示，再记一笔账后恢复，

属于“初始渲染时机”问题

。模型在异步状态初始化的顺序上，没处理到位。从界面上看，这个记账应用

视觉设计较为简约

，是一套偏实用向的标准控件组合。

业务逻辑维度上

，它把一个日常工具该有的数据流、统计逻辑与异常处理都串起来了，对于应用开发全流程的理解比较清晰。

之后，我们还让它做了个

新闻网站前端设计

，看起来还是有模有样的。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

Qwen3.6-27B自行规划，

分了科技、财经、体育、娱乐、健康五大板块

，设有国内新闻和国际新闻，界面右侧，还展示了热门排行、标签、北京的天气，甚至把商业化都想好了，留出了广告的位置。

界面条理清晰，内容完整，可视化效果好，

模型对“

一个新闻网站长什么样”有较为成熟的认知。

二、多模态能力：识别验证码、找不同，通通拿下

作为原生多模态模型，Qwen3.6-27B支持视觉语言思考与非思考模式，可处理图像、视频与文本的联合理解，覆盖

视觉推理、文档理解、视觉问答等场景

，能力基本上与Qwen3.5-397B-A17B想当。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

针对多模态能力

，我们也对Qwen3.6-27B进行了测试，首先让它识别了下面这几个验证码。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

可以看到，它较为清楚的判断出了绝大多数验证码，只有第八个0AIs，他把s认成了6，其他都判断的比较准确，同时也注明了自己不确定的部分。

这种带置信度反馈的识别方式，对后续的自动化校验链路更友好

，下游系统可以基于置信度决定是否自动通过。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

展开思考过程，我们可以看到它多次确认图8的验证码0AIs，最后一位它在b和6之间反复纠结，被旁边字母干扰，在错误的道路上越走越远了，而正确答案s自始至终没有进入过它的候选集。

这样看下来，Qwen3.6-27B的图像识别和推理能力还是过关的，得到相对模糊的反馈后，还需进行人工验证。

另外，我们还让Qwen3.6-27B进行了

“找不同”测试

，让它看看左右两张图有什么区别。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

Qwen3.6-27B识别出了5处差异，不同难度的不同点都注意到了：鸟窝、打开的书、灯笼、颜色差异，还有墙上的挂饰，这个我自己一开始都没注意到。

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%

值得注意的是，它的思考过程非常简单，简单比对就完成了分析，而且描述也很清晰，展示出模型的

较强的视觉识别与推理能力

。

结语：阿里开源战略渐趋聚焦，27B模型瞄准开发者核心需求

Qwen3.6系列的发布，折射出阿里在开源策略的转向。此前，阿里曾开源从几十亿参数量到数千亿参数量的各种模型，但本次Qwen3.6系列仅开源了小尺寸MoE模型和稠密模型，体现出其开源战略的聚焦。

此类小模型面向开发者、研究者及小团队，可以直接本地部署，或在其基础上做进一步研究和微调。Qwen3.6-27B恰好卡在了这个需求的中心位置。

开源社区对这一尺寸的模型呼声很高；从实际价值看，27B的稠密模型也更能满足开发者对部署灵活性和可控性的现实要求。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

AI报告

电话咨询

咨询请拨打电话010-68321050

在线咨询