让 Kimi K2.6 当了一天打工人，它交了三份作业

发布时间：2026-04-22来源：有新Newin

4 月 20 日晚，月之暗面发布并开源了 Kimi K2.6。时间点微妙——Claude Opus 4.7、Qwen3.6、DeepSeek V4 前后脚发布，四月的大模型赛道挤得像早高峰的地铁。

但 K2.6 确实带着东西来的。升级集中在三件事：代码能力大幅增强——连续编码 13 小时、处理超 4000 行代码，SWE-Bench Pro 58.6% 领先所有闭源模型；Agent 集群架构翻新——最多 300 个子 Agent 并行、支持 4000 步协作；自主运行能力突破——可持续运行 5 天。Benchmark 也好看：HLE 54.0% 排名第一，DeepSearchQA 92.5% 超 Claude Opus 4.6。

不过数据归数据，有看到网友评论——"跑分没输过，实测没赢过"。跑分就不聊了。直接给它布置工作，看看到底能交出什么水平的活儿。以下是三轮实测和一些思考。

▍不只搭界面，后台数据关系也跑通了

在第一个任务中，我们给 K2.6 一份产品需求文档，让它从零搭一个完整 Web 应用原型。

需求叫 TeamPulse，一个团队周报与项目健康度看板——三种用户角色、多对多数据关系、带图表的看板、完整 CRUD，要求单个 HTML 文件交付。查看点明确，鉴权、数据建模、前端可视化，一个任务覆盖多个核心维度。

需求丢进去后，先看了一眼 K2.6 输出的一份 Tech Spec——选型 React 18 + Tailwind CSS + Chart.js，TypeScript 接口定义数据实体，还规划了响应式断点（1280px 展开侧栏，768px 收为图标栏）。可见，其"先想再干"的工程习惯很明显。

对交出来的单文件应用，第一印象是它超出了预期。Kimi 给出了四组预设账号，进入蓝白配色的登录页，并以管理员身份登入，就会自动跳到看板——项目卡片标着提交率、平均进度和进度预警等信息，并配有环形图、趋势折线图等。

更意外的是，数据逻辑居然是对的。交叉验证了一下——看板显示"用户增长引擎"提交率 75%、平均进度 77%，切到周报列表筛选该项目，确实 3/4 人提交，三人进度 77%、82%、72%，均值正好 77%。三个项目逐一核对全部自洽，进度预警逻辑也正确。K2.6 不只是堆界面，用户、项目、多周数据真正跑通了。

周报模块同样完整：字段齐全、并可以对项目和周次进行筛选。点击具体的人员，能够看到他们本周完成的详细情况以及是否需要协助的说明。除此之外，还能新建周报信息，在其中选择项目，记录本周的完成情况。

这轮体验里，K2.6 给人的最大感受是，它不真的能把一个产品原型做得像模像样。你给它的是一个完整需求：团队周报、项目健康度看板、三种角色、多对多关系、图表、CRUD，还要求单个 HTML 文件交付。最后交出来的东西覆盖登录页、预设账号、管理员看板、项目卡片、趋势图、环形图这些都有，而且界面不是随便拼的，看起来已经接近一个能演示的产品雏形。

更重要的是，它不只是做了个好看的壳子，里面的数据逻辑也真跑通了。这点其实很加分，因为很多模型做原型时最容易翻车的就是“页面看着对，数据其实是假的”。另外，周报模块也做得比较完整，能筛选项目和周次，能点开看具体成员，还能新建周报。整体看下来，K2.6 这次最亮眼的地方，是它把用户、项目、周报之间的关系真正串起来了。

▍不用设计师，直接跑出像样的官网

第二轮换方向，测"代码驱动设计"。任务是为虚构 AI 创业公司 Nebula Labs 做产品发布落地页。

K2.6 交出来的东西，视觉质量还是不错的。首屏 Hero 区背景是 Three.js 渲染的 3D 旋转体，青色轨道线环绕、粒子飘浮，整体质感更像设计团队打磨过的初创官网。

往下是功能介绍区，它的第一眼感官不错。黑底加冷蓝光效，很容易让人联想到 AI、算力、基础设施这类方向。顶部导航比较规整，留白控制得也可以，没有一上来塞很多内容。下面两块卡片式模块，信息层级也清楚，标题、说明、配图之间的关系一眼能看懂。像“算力拓扑图”“实时多维渲染”这两个词，配合右侧偏数据可视化、偏系统监控感的图片，至少在气质上是统一的。

除了功能区，网页还配备了详细的评价轮播、三档定价表、底部联系表单，完整度还是很高的。

但 K2.6 做了个不该做的决定。它改了品牌名。Prompt 写的是 Nebula Labs，它自己改成了 EXERION——没问、没解释，直接"创意发挥"。可见，虽然 K2.6 有自我的审美判断，但有时候，"创意"会覆盖掉需求。

▍把品牌规范炼成可复用的 Skill

第三轮指向一个更实际的问题：AI 能不能学会一套标准，反复按标准交活？

K2.6 推出的"文档转 Skill"解决了这个问题。用户把品牌规范文档丢给它，它从中提炼视觉风格、文案调性、内容结构，封装成可复用的 Skill。之后做类似任务时直接调用，不用每次从头教。

这次准备了一份 SoundFlow（虚构 AI 降噪麦克风）的完整规范：

品牌蓝 #2D5BFF、深夜黑 #0A0F1E、冰川白 #F0F2F5 的色值定义，字体层级从 36px 到 12px，文案要求"科技感但温暖、像朋友推荐好物"，禁止用语清单（不准用"颠覆""革命性"，不准编造数据，不准用真实公司名）。

不到一会儿，Skill 便被炼就完毕，并可以添加至“我的技能”。在使用前于输入框输入“/”即可调用。

随后，我们使用了这个技能，分别生成户外 Vlog、企业会议室、校园记者三个场景的落地页来看实际效果。

三个页面放一起看：品牌一致性控得相当好。统一深夜黑背景、白色大标题，配图和文案做了场景区分——户外版日落山顶，"风再大，你的声音依然清晰"；会议室冷色调玻璃幕墙，"每句话都被听清"；校园暖光下学生采访，"用声音记录校园每个故事"。其色温和文案侧重确实不同。

点进“校园记者”网页，往下看场景故事区，文案和场景也很贴合："社团招新那天，你拿着 SoundFlow 穿梭在喧闹的广场。周围是音乐社的吉他和辩论社的呐喊，但你录下的那位学姐关于'为什么选择新闻专业'的回答，安静而清晰，像你们正坐在空教室里聊天。"——这是品牌规范要求的"对话感"，它学进去了。

技术参数区也符合规范：4 个关键数字（12h 续航、AI 三级降噪、200m 传输、12g 重量）。底部 CTA 品牌蓝按钮"了解更多"，下方口号"你的声音，不被世界打断。"——跟规范一字不差。

最值得注意的是用户评价区。 在第二轮的测试中， K2.6 编了"字节跳动产品副总裁"的虚构背书，这次评价署名是"校园媒体人小雨"，下方标注"模拟评价"——完全遵守了规范的禁令。Skill 系统确实能把约束条件带进生成过程，不只学风格，也学规矩。

小问题也有：参数数字在三个场景完全相同，没有根据场景做差异化强调。但整体来看，Skill 系统让 K2.6 从"一次性帮忙"往"可以培训的同事"迈了实质性一步。品牌调性、视觉规范这些靠口头传递的"隐性知识"，现在可以变成可复用的工具——这是 K2.6 在实用性上让人期待的部分。

▍试完三轮，聊几件事

三轮试下来，一个感觉越来越清楚：K2.6 想做的，可能不只是一个“代码更强”的模型。

第一轮里，它能把 TeamPulse 这种带角色、关系、图表和 CRUD 的原型真正搭起来；第二轮里，它又能把网页做出明显的设计感；第三轮里，文档转 Skill 又让它开始学会“按规范反复交活”。

把这三件事连起来看，K2.6 这次升级的重点其实很一致：把“写代码”“做页面”“学规则”“多步执行”串成一条更完整的交付链路。这个方向，也和月之暗面官方这次强调的长程编码、代码驱动设计、文档转 Skill、等是对得上的。

不过，虽然每轮都有让人印象深刻的峰值，但也都要人工兜底：品牌名被改、规划写了但没落地。有网友说"体感不输 Opus 4.6"，也有人说"换回 Opus 有天亮了的感觉"。这种分裂不矛盾——容错空间大的任务表现优秀，精密度要求高的场景容易翻车。在能力天花板够高的同时，地板也要够稳。

再看产品路线，现在各家都在卷代码能力，但 Kimi 这次明显更想把模型往“协作型工作系统”上推：一边是开源权重放到 Hugging Face 等平台，给开发者和企业更多本地部署、微调和二次开发空间；另一边是把 Skill、Kimi Code、Claw 群组这些东西拼起来，去试探“人和多个 Agent 一起办公”的形态。

Kimi K2.6 现在最值得关注的，可能不是它某个 benchmark 又高了几点。它已经在回答另一个问题：AI 到底能不能从“帮你一下”，走到“持续帮你把事做完”。这次三轮实测给出的答案是：它已经摸到了门，但离真正稳定地走进去，还差最后几步。

✦ 最新活动 ✦