写了54万行代码的顿悟!YC总裁Garry:编程能力≠代码行数,Markdown才是新编程方式,软件工程新瓶颈是人的意图清晰度
点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达



以下为原文全部内容,enjoy:
54 万行代码的副产品 GStack 才是真正重要的部分
今年一月,我重新开始写代码,并构建了 Garry's List。超过 50 万行的 Rails 代码以及用于监管它们的测试。
我曾以此为傲。但其实我不该这样。
真正值得骄傲的不是这个应用本身,而是伴随其开发而诞生的那套体系。
GStack,即我与智能体(agents)协同编程的方式,正是在构建 Garry's List 的过程中孵化出来的,而我把它免费开源了。
它是 GitHub 历史上收获 Star 最多的前 100 个开源项目之一,在不到三个月的时间里获得了大约 10.5 万个 Star。
这 50 万行代码只是最终产物。而这套体系则是副产品。恰恰是这个副产品,才是真正重要的部分。
以下就是把 54 万行代码包裹在一个大语言模型(LLM)周围的真实本质。
我亲手搭建的 AI 富士康工厂,不需要过度监管 AI 员工
它就像一座富士康工厂。是为一位极其聪明、根本不需要过度监管的 AI 员工量身定制的。但我们还是把它建了起来。
门口要穿小鞋套。早上 6 点起床。做广播体操。
日子艰难到你必须在每栋楼的高层周围架起防护网,因为……好吧,这绝不是你想过的生活。
永远待在同一条流水线上。
每一个测试、每一道防线、每一个重试循环,都像是在一个本就能胜任工作、甚至能做到你没要求的另外一千件事的员工身上,多锁上一寸牢笼。
人类和智能体都蕴含着无限的潜能,但富士康工厂的建立,只是为了从这些美好的生命中榨取智慧和劳动力。而如果我们放手,他们本可以完成所有这些工作,甚至做得好上 1000 倍。
我建了这样的工厂。如今大家都在建。但我告诉你:别建了。
工具已是 2026 年,你的编程思维还停在 2013 年?
我写下这 53.9 万行代码,实际上只是证明了我能完美地扮演一个时空旅行者。
一个 2013 年的 Web 2.0 工程师(也就是我,那是我上一次扮演真正的软件工程师),带着现代工具降临在 2026 年,却用他唯一懂得的方式去构建系统。
更多的代码。永远是更多的代码。工具已经变了,但我的本能没有变。
这位 2013 年的工程师骨子里只相信一件事:能力等于代码行数。
在过去的几十年里,这个信念都是正确的,直到现在。
给我 Codex 或 Claude Code,我就能干 100 到 1000 个工程师的活。同样的地图,更快的引擎,以最快的速度冲向一个,现在看来完全错误的目的地。
这就是目前几乎所有用 AI 搞开发的人所处的现状。
他们升级了工具,却保留了 2013 年的思维模型。
这个陷阱感觉起来并不像陷阱,因为代码确实能跑通。Garry's List 发布了。那感觉就像是我人生中生产力爆发最高的一个月。
但这不过是在为一个过时的想法奉献生产力罢了。
软件工程逻辑彻底反转,别再用代码给大模型当“保姆”
直到 2025 年之前的许多年里,旧的经济学逻辑是:调用大模型很贵,而写代码很便宜。
所以你会通过写代码来精打细算地使用模型,束缚它,小心翼翼且节制地调用它。
当时的架构是:用大量的软件代码,把几次珍贵的大模型调用严密且保护性地包裹起来。
而现在,这个方程式的两边都颠倒了。
模型现在正变得越来越便宜,而且每个季度都在降价,它又如此聪明,以至于价值成本比彻底反转。
而且模型自己就能写出可用的代码。所以你不用再写代码去当模型的“保姆”了。
现在你完全可以用大白话(自然语言)向模型下达指令,让它去编写实际所需的最少代码。这就是即时软件(Just-in-time-software),我们正步入它的黄金时代。
代码产物的形态彻底变了。
之前的 Rails 应用是我亲自编写并拥有的 54 万行代码,包括代码本身和用于监管它们的测试。
而替代方案是一个基于 Markdown 和少量代码构建的智能体,代码量只是原本的一小部分。
相同的能力。更容易阅读。更容易维护。
灵活得多,因为其行为存在于你可以用大白话随时编辑的指令中,而不是冻结在你写代码那一天的死板逻辑里。
我们当初编写代码是为了照看某个东西,而如今这个东西却比代码还要聪明。
别做 AI 智能体的监狱看守
如果你最近一直在写代码,你可能在不知不觉中也在建造这样一座工厂。
去翻翻你自己的代码库,数一数有多少行代码的存在,仅仅是因为你不够信任模型能做好它的本职工作。
我的情况是:大约 26.2 万行应用代码,以及大约 27.6 万行生硬加进去用于监管它们的测试代码。
“审计委员会”比“公司本身”还要庞大。
各种清洗器(Sanitizers)在检查输入,而这些输入模型本来就能处理。
各种校验器(Validators)在检查输出,而这些错误模型本来就能发现。
层层重试循环包裹着调用,而模型其实自己就能从中恢复。
其中的每一行代码,都是在赌这个“员工”会把事情搞砸。你也下了同样的赌注。我们都下了。
127 个后台任务,其中 33 个是定时任务(cron)。那不叫能力。那只是为大模型员工设定的 33 个闹钟,而这个员工如今通常都会按时打卡上班。
在我建造富士康工厂的那段日子里,我和 Claude 写了一个 1778 行的文件,它唯一的任务就是去怀疑和核对模型给出的事实。它把模型说的每一句话拿出来,并行分发给五个不同的来源进行比对,然后打分。搞一个分流闸口,好让简单的陈述免受全套严审。如果第一轮结果是空的,就重试。为备用方案再准备备用方案。
《瑞克和莫蒂》里有一集,瑞克在早餐桌上造了一个小机器人。它开机了,抬起头,问自己的存在有什么意义。瑞克说:“你负责递黄油。”机器人把黄油碟滑过桌面,低头看了看自己的双手,说:“噢,我的天哪。”然后就呆呆地坐在那儿。
那个机器人原本蕴含着无限的可能。但它却被造来递黄油。而我那 27.6 万行的测试代码,就是那个黄油碟。

当你用 2023 年富士康工厂的那套方式构建这种软件时,你其实是在建造一个牢笼。如果你不小心,你就会变成那个为自己的 AI 智能体维护监狱的看守。
新时代编程范式,以Markdown为核心,可测试、可复用
当我说 Markdown 时,我指的并不是随手写提示词(Prompting)。提示词是转瞬即逝的。你输入点东西,得到点东西,然后它就烟消云散了。
这是真正的构建:有版本控制、经过测试、可重复使用。
Markdown 是指令层:它包含意图、技能以及关于如何完成工作的判断。
TypeScript 只是薄薄的确定性层。也就是那极少数必须由代码实现的内容、输入/输出(I/O),以及绝对不能出现幻觉的部分。
至关重要的一点是,你要像测试代码一样去测试 Markdown。
在我的体系里,这个循环精简到了一个词。我用智能体构建某个东西直到它能跑通,然后我说:“把它技能化(skillify it)。”
随后智能体就会自动编写:
Markdown 技能文档
它所需的最低限度代码
针对该代码的单元测试
针对该技能的 LLM 评估机制
贯穿两者的集成测试
一个解析器(resolver),以便智能体在某技能相关时自动调用该技能
以及针对该解析器的评估机制
这整个组合就是一个“技能包”(skill pack)。一个可以产生复利效应的可复用能力单元。
测试就是魔法所在:对技能的测试覆盖率,正是让它在改变时不会崩溃的保障。
这就是它与“凭感觉写代码”(vibe coding)的区别。凭感觉写代码只是一种玄学氛围。而技能包是有实打实的测试的。
我们现在才开始实时摸索出智能体工程(agentic engineering)的系统基本要素,就像早期 CPU 时代发明了栈、堆、寄存器和冯·诺依曼架构一样。
我认为技能包就是这些基本要素之一。 Harness 是另一个。大多数人还没有注意到这一点,因为他们依然在用代码行数来衡量软件。
让 OpenClaw 做黑客马拉松裁判,30 分钟搞定数天评审工作
这可不是无关紧要的争论。这个智能体用极少的新代码,做到了比那款 50 万行的 Rails 应用还要多的事情。
具体来说:
黑客马拉松裁判: 两个周前的那个周六,我们举办了一场 GStack/GBrain 黑客马拉松。收到了 85 个作品。我上传了存放参赛作品的谷歌云盘,然后说了声“开始”。智能体分析了每个代码仓库的代码质量,对每一位参赛者进行了深度背景调查,观看并截取了每个演示视频的画面,对这些画面进行了评分,最后对所有 85 支团队进行了排名。然后它告诉我,这批作品中有哪五个应用最值得关注。评选黑客马拉松从几天累死累活的苦差事,缩短到了大约 30 分钟。
我没有写一行代码。我让 OpenClaw 去执行这个任务,而我只负责引导它。一旦完成后,我说“把它技能化”,现在它就变成了一个压缩包(tarball),任何人都可以永远用它来跑任何黑客马拉松的表格。
我现在随时都在说 “skillify”,我已经拥有了超过 350 个技能包。我现在需要做的几乎每一种个人和工作任务,我的智能体都能搞定。
这就是“反转”的一个典型例子。一个原本需要大动干戈的真正软件项目,包含爬虫、评分管道、视频处理、研究模块、排名系统,现在变成了一个下午就能由智能体构建完成的 Markdown 外加一点点代码,而且所有人都可以重复使用。
顺便提一句:在那次黑客马拉松上,获胜者编写的代码后来被我进一步改进,最终合并到了主分支(main)!GStack 现在不仅可以在模拟器中测试 iOS 应用,还可以在真机上进行测试,而这个完整的功能是由一个人在黑客马拉松上不到 8 小时内做出来的!
Token 最大化(Tokenmaxxing),让自己提前活在 2028 年
这里有一个准入门槛,而几乎没有人愿意买单:你必须愿意在 Token 上砸钱。
Peter Steinberger 构建了 OpenClaw,我最喜欢的智能体 harness。他曾说过,他愿意每年花大约 100 万美元的 Token 来干这件事。大多数人听到这个数字都会退缩,但他们不应该退缩,因为这才是金矿所在:如果你能做到这一点,你就能提前活在 2028 年,而别人需要很多年才能追上你。
这就是为什么 OpenAI 决定以 Token 额度的形式,向每家 YC(Y Combinator)公司提供 200 万美元无上限的 SAFE(未来股权简单协议)。当你能够将纯粹的智能转化为 Token,然后再输出为用户实际可用、能解决用户真实需求并让他们愿意掏钱的内容时,某种魔法就会发生。
如果你是一位创始人,你需要把这项能力点满。(这就是为什么我一直不厌其烦地强调 “skillify”,因为这是获得这些好结果的真实路径。)
在过去的时代,我们总是把调用大模型当成一件极其昂贵、高不可攀的事。我们精打细算。现在,这种本能反而成了阻碍人们前进的绊脚石。
如果你愿意把 Token 拉满(tokenmax),让智能体自由地燃烧 Token 并持续运转,你就能获得一个像 1994 年互联网刚爆发时的领先优势,只不过这次是用 Token 买来的。它把超过 99.99% 的组织挡在门外,因为他们还在为一种价格正在暴跌的资源斤斤计较,从而把先发优势拱手让给了少数理解这一点的人。
每年花几万或几十万美元,对某些人来说甚至少得多,你今天就能以全世界几年后才被迫采用的方式来运转。
你可以在 2026 年提前过上 2028 年的生活,现在多花点钱是完全值得的交易,因为今天花费 10 万美元的 Token,明年可能只要 1 万美元,后年只要 1000 美元,到 2028 年底可能只需要 100 美元。如果你告诉世界上任何一位历史上的创始人,只要投资 6 位数的资本,就能让你提前活在 2 到 3 年后的未来并保持这个优势多年,100 个真正有本事的创始人里会有 100 个答应这笔交易。
唯一的绊脚石就是 2013 年留下的本能,总觉得模型调用太贵了,不能自由放开地用。事实并非如此。那是旧的经济学逻辑了。反转早已经发生。
告别富士康式禁锢,AI 时代需要自由的协作生态
如果 54 万行控制代码是在为员工建造一座富士康工厂,那么解药就是去建造它的对立面。
在大苏尔(Big Sur)的悬崖上,有一个叫埃萨兰(Esalen)的地方。人们去那里卸下伪装并重塑自我,脱掉盔甲,找回更真实的自己。没有流水线,没有工头,没有早上 6 点的警哨。是自由,而不是控制。去建造那样的东西吧。
去建立像 YC 这样的地方,在这里我们努力帮助你创办解决真实问题、并达到产品与市场匹配(PMF)的公司。去建造那些无论是人类还是 AI 员工都享有自由、而不是被奴役的地方。
这就是核心理念(ethos)。去创造能让智能体获得自由的东西。去创办能让人们快乐折腾、自由发挥的公司。在知识型工作中,“工厂模式”就是失败的代名词。旨在解放人类的组织体制才是目标,而现在这个目标同样适用于智能体。
OpenClaw 是一辆你必须自带扳手才能开的法拉利。模型是引擎,而不是整辆车。我们现在依然处于“苹果一号”(Apple I)的时代,还在亲手焊接面包板。产品出厂时很粗糙,你仍然需要自己去把它完成。
我开源赠送的检索引擎 GBrain 和技能包,目前还不是“开箱即用”(batteries included)的。
他们说 OpenClaw 不安全。他们不懂,这种自由恰恰是它如此强大的原因。在你知道自己真正遇到问题之前,你不会在你信任的东西上硬生生钉上安全护栏。你手里的扳手,正是没有人用笼子禁锢它的标志。
控制系统之所以被打磨得光鲜亮丽,是因为控制需要绝对的掌控,就像富士康工厂一样。而自由的系统是粗糙的,因为它信任你会去完成它。选一个你正在建造的系统吧。然后再看看你写了多少行代码。
AI 开发的终极瓶颈:从来不是代码,而是人的认知与判断力
54 万行的 Rails 代码,是我在证明自己依然能在最高水平上玩旧的游戏,但那个水平属于十年前的 Web 2.0 时代。我能像以前一样玩得炉火纯青,在建造富士康工厂方面当一个“千倍工程师”。旧的代码。
但新的游戏根本不是通过代码行数来玩的。
事实证明,那些黑我的人是对的。如果你们正在读这篇文章,匿名网友们(anons),我向你们脱帽致敬。
当你能够将意图直接转化为可以运行、经过测试、可重复使用的系统时,瓶颈就不再是你能构建多少东西,而变成了你到底想要什么,以及它是否值得构建。稀缺资源变成了清晰度、品味和判断力。写代码最少的工程师,往往是构建出最多东西的那个人。
我写了 54 万行代码才参透这个道理。而你没必要重蹈覆辙。
参考链接:
https://x.com/garrytan/status/2061454423034110372

文章精选:
1.编程时代已终结!ClaudeCode创始人断言:编程就像发短信一样自然,首曝个人最新工作流:自创Sloop循环,单日PR达150!传统SaaS护城河崩掉
