让 Kimi K2.6 当了一天打工人,它交了三份作业


4 月 20 日晚,月之暗面发布并开源了 Kimi K2.6。时间点微妙——Claude Opus 4.7、Qwen3.6、DeepSeek V4 前后脚发布,四月的大模型赛道挤得像早高峰的地铁。
但 K2.6 确实带着东西来的。升级集中在三件事:代码能力大幅增强——连续编码 13 小时、处理超 4000 行代码,SWE-Bench Pro 58.6% 领先所有闭源模型;Agent 集群架构翻新——最多 300 个子 Agent 并行、支持 4000 步协作;自主运行能力突破——可持续运行 5 天。Benchmark 也好看:HLE 54.0% 排名第一,DeepSearchQA 92.5% 超 Claude Opus 4.6。
不过数据归数据,有看到网友评论——"跑分没输过,实测没赢过"。跑分就不聊了。直接给它布置工作,看看到底能交出什么水平的活儿。以下是三轮实测和一些思考。
▍不只搭界面,后台数据关系也跑通了
在第一个任务中,我们给 K2.6 一份产品需求文档,让它从零搭一个完整 Web 应用原型。
需求叫 TeamPulse,一个团队周报与项目健康度看板——三种用户角色、多对多数据关系、带图表的看板、完整 CRUD,要求单个 HTML 文件交付。查看点明确,鉴权、数据建模、前端可视化,一个任务覆盖多个核心维度。
需求丢进去后,先看了一眼 K2.6 输出的一份 Tech Spec——选型 React 18 + Tailwind CSS + Chart.js,TypeScript 接口定义数据实体,还规划了响应式断点(1280px 展开侧栏,768px 收为图标栏)。可见,其"先想再干"的工程习惯很明显。
对交出来的单文件应用,第一印象是它超出了预期。Kimi 给出了四组预设账号,进入蓝白配色的登录页,并以管理员身份登入,就会自动跳到看板——项目卡片标着提交率、平均进度和进度预警等信息,并配有环形图、趋势折线图等。


更意外的是,数据逻辑居然是对的。交叉验证了一下——看板显示"用户增长引擎"提交率 75%、平均进度 77%,切到周报列表筛选该项目,确实 3/4 人提交,三人进度 77%、82%、72%,均值正好 77%。三个项目逐一核对全部自洽,进度预警逻辑也正确。K2.6 不只是堆界面,用户、项目、多周数据真正跑通了。

周报模块同样完整:字段齐全、并可以对项目和周次进行筛选。点击具体的人员,能够看到他们本周完成的详细情况以及是否需要协助的说明。除此之外,还能新建周报信息,在其中选择项目,记录本周的完成情况。



这轮体验里,K2.6 给人的最大感受是,它不真的能把一个产品原型做得像模像样。你给它的是一个完整需求:团队周报、项目健康度看板、三种角色、多对多关系、图表、CRUD,还要求单个 HTML 文件交付。最后交出来的东西覆盖登录页、预设账号、管理员看板、项目卡片、趋势图、环形图这些都有,而且界面不是随便拼的,看起来已经接近一个能演示的产品雏形。
更重要的是,它不只是做了个好看的壳子,里面的数据逻辑也真跑通了。这点其实很加分,因为很多模型做原型时最容易翻车的就是“页面看着对,数据其实是假的”。另外,周报模块也做得比较完整,能筛选项目和周次,能点开看具体成员,还能新建周报。整体看下来,K2.6 这次最亮眼的地方,是它把用户、项目、周报之间的关系真正串起来了。
▍不用设计师,直接跑出像样的官网
第二轮换方向,测"代码驱动设计"。任务是为虚构 AI 创业公司 Nebula Labs 做产品发布落地页。
K2.6 交出来的东西,视觉质量还是不错的。首屏 Hero 区背景是 Three.js 渲染的 3D 旋转体,青色轨道线环绕、粒子飘浮,整体质感更像设计团队打磨过的初创官网。

往下是功能介绍区,它的第一眼感官不错。黑底加冷蓝光效,很容易让人联想到 AI、算力、基础设施这类方向。顶部导航比较规整,留白控制得也可以,没有一上来塞很多内容。下面两块卡片式模块,信息层级也清楚,标题、说明、配图之间的关系一眼能看懂。像“算力拓扑图”“实时多维渲染”这两个词,配合右侧偏数据可视化、偏系统监控感的图片,至少在气质上是统一的。


除了功能区,网页还配备了详细的评价轮播、三档定价表、底部联系表单,完整度还是很高的。

但 K2.6 做了个不该做的决定。它改了品牌名。Prompt 写的是 Nebula Labs,它自己改成了 EXERION——没问、没解释,直接"创意发挥"。可见,虽然 K2.6 有自我的审美判断,但有时候,"创意"会覆盖掉需求。
▍把品牌规范炼成可复用的 Skill
第三轮指向一个更实际的问题:AI 能不能学会一套标准,反复按标准交活?
K2.6 推出的"文档转 Skill"解决了这个问题。用户把品牌规范文档丢给它,它从中提炼视觉风格、文案调性、内容结构,封装成可复用的 Skill。之后做类似任务时直接调用,不用每次从头教。
这次准备了一份 SoundFlow(虚构 AI 降噪麦克风)的完整规范:
品牌蓝 #2D5BFF、深夜黑 #0A0F1E、冰川白 #F0F2F5 的色值定义,字体层级从 36px 到 12px,文案要求"科技感但温暖、像朋友推荐好物",禁止用语清单(不准用"颠覆""革命性",不准编造数据,不准用真实公司名)。
不到一会儿,Skill 便被炼就完毕,并可以添加至“我的技能”。在使用前于输入框输入“/”即可调用。


随后,我们使用了这个技能,分别生成户外 Vlog、企业会议室、校园记者三个场景的落地页来看实际效果。

三个页面放一起看:品牌一致性控得相当好。统一深夜黑背景、白色大标题,配图和文案做了场景区分——户外版日落山顶,"风再大,你的声音依然清晰";会议室冷色调玻璃幕墙,"每句话都被听清";校园暖光下学生采访,"用声音记录校园每个故事"。其色温和文案侧重确实不同。



点进“校园记者”网页,往下看场景故事区,文案和场景也很贴合:"社团招新那天,你拿着 SoundFlow 穿梭在喧闹的广场。周围是音乐社的吉他和辩论社的呐喊,但你录下的那位学姐关于'为什么选择新闻专业'的回答,安静而清晰,像你们正坐在空教室里聊天。"——这是品牌规范要求的"对话感",它学进去了。

技术参数区也符合规范:4 个关键数字(12h 续航、AI 三级降噪、200m 传输、12g 重量)。底部 CTA 品牌蓝按钮"了解更多",下方口号"你的声音,不被世界打断。"——跟规范一字不差。
最值得注意的是用户评价区。 在第二轮的测试中, K2.6 编了"字节跳动产品副总裁"的虚构背书,这次评价署名是"校园媒体人 小雨",下方标注"模拟评价"——完全遵守了规范的禁令。Skill 系统确实能把约束条件带进生成过程,不只学风格,也学规矩。

小问题也有:参数数字在三个场景完全相同,没有根据场景做差异化强调。但整体来看,Skill 系统让 K2.6 从"一次性帮忙"往"可以培训的同事"迈了实质性一步。品牌调性、视觉规范这些靠口头传递的"隐性知识",现在可以变成可复用的工具——这是 K2.6 在实用性上让人期待的部分。
▍试完三轮,聊几件事
三轮试下来,一个感觉越来越清楚:K2.6 想做的,可能不只是一个“代码更强”的模型。
第一轮里,它能把 TeamPulse 这种带角色、关系、图表和 CRUD 的原型真正搭起来;第二轮里,它又能把网页做出明显的设计感;第三轮里,文档转 Skill 又让它开始学会“按规范反复交活”。
把这三件事连起来看,K2.6 这次升级的重点其实很一致:把“写代码”“做页面”“学规则”“多步执行”串成一条更完整的交付链路。这个方向,也和月之暗面官方这次强调的长程编码、代码驱动设计、文档转 Skill、等是对得上的。
不过,虽然每轮都有让人印象深刻的峰值,但也都要人工兜底:品牌名被改、规划写了但没落地。有网友说"体感不输 Opus 4.6",也有人说"换回 Opus 有天亮了的感觉"。这种分裂不矛盾——容错空间大的任务表现优秀,精密度要求高的场景容易翻车。在能力天花板够高的同时,地板也要够稳。
再看产品路线,现在各家都在卷代码能力,但 Kimi 这次明显更想把模型往“协作型工作系统”上推:一边是开源权重放到 Hugging Face 等平台,给开发者和企业更多本地部署、微调和二次开发空间;另一边是把 Skill、Kimi Code、Claw 群组这些东西拼起来,去试探“人和多个 Agent 一起办公”的形态。
Kimi K2.6 现在最值得关注的,可能不是它某个 benchmark 又高了几点。它已经在回答另一个问题:AI 到底能不能从“帮你一下”,走到“持续帮你把事做完”。这次三轮实测给出的答案是:它已经摸到了门,但离真正稳定地走进去,还差最后几步。
✦ 最新活动 ✦
















✦ 精选服务 ✦
「新探计划」由有新 Newin 联合探奇资本发起,我们关注 AI 大浪潮中持续解决真实问题的创业团队,为优质项目匹配合适的创业资源,不限于融资、宣传、产品设计以及商业化探索等。

✦ 精选内容 ✦
Kollab 想把 AI 变成团队操作系统,从个人提效到组织复利
前腾讯云架构师打造的“金融龙虾”,用 Agent 打造你的专属基金
EdgeClaw Box:在养虾潮的安全焦虑中,推开 OPC 时代的大门
在 AI 替你干活之前,Violoop 先给它装一个物理刹车
Junior:一个有邮箱、有目标、会主动干活的 AI 同事,正在改变未来职场


