写了54万行代码的顿悟！YC总裁Garry：编程能力≠代码行数，Markdown才是新编程方式，软件工程新瓶颈是人的意图清晰度

发布时间：2026-06-04来源：图灵人工智能

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自51CTO技术栈，仅用于学术分享，如有侵权留言删除

编辑 | 玉澄

“这就是目前几乎所有用 AI 搞开发的人所处的现状。他们升级了工具，却保留了 2013 年的思维模型。”

“至关重要的一点是，你要像测试代码一样去测试 Markdown。”

“模型现在正变得越来越便宜，而且每个季度都在降价，它又如此聪明，以至于价值成本比彻底反转。你不用再写代码去当模型的‘保姆’了。”

这是近期硅谷颠覆开发者认知的一篇深度反思文章，来自 Y Combinator 总裁 Garry Tan。

在 5 月份 YC 内部的播客采访中，Garry 曾分享过自己时隔 13 年重拾编程，借助 AI 工具构建了 54 万行代码的 Garry's List，在这过程中还创建了 GStack 。

最近，他重新审视这一经历，发现自己使用着 2026 年的 AI 工具，编程思维却还停留在 2013 年，也就是仍然认为“代码行数等于能力”，而这一想法已经过时了。

在 AI 时代，他提出，如今 Markdown 才是编程方式。应该用 Markdown 描述意图和 Skill，让 Agent 自行生成所需的最少代码，自主完成任务，生成即时软件。

Garry's List 项目的 54 万行代码中，应用程序代码有 26.2 万行，测试代码有 27.6 万行。“审计委员会”比“公司本身”还要庞大。

相当于他为自己的 Agent 建造了一家富士康工厂，AI 员工被全方位监管。然而，模型本身并没有出错。

如今，AI 模型变得便宜且更加聪明，软件开发的经济学逻辑彻底反转，应该让模型自己写代码，而不是用海量代码去“看管”模型。

应该让 AI 员工处于自由的环境中工作，让它们充分发挥自己的聪明才智。

当下，“写代码最少的工程师，往往是构建出最多东西的那个人”。软件工程的构建瓶颈不再是代码行数，而是构建者的清晰意图、品味和判断力。

他认为自己写了 54 万行代码才参透这个道理。而大家没必要重蹈覆辙。

以下为原文全部内容，enjoy：

54 万行代码的副产品 GStack 才是真正重要的部分

今年一月，我重新开始写代码，并构建了 Garry's List。超过 50 万行的 Rails 代码以及用于监管它们的测试。

我曾以此为傲。但其实我不该这样。

真正值得骄傲的不是这个应用本身，而是伴随其开发而诞生的那套体系。

GStack，即我与智能体（agents）协同编程的方式，正是在构建 Garry's List 的过程中孵化出来的，而我把它免费开源了。

它是 GitHub 历史上收获 Star 最多的前 100 个开源项目之一，在不到三个月的时间里获得了大约 10.5 万个 Star。

这 50 万行代码只是最终产物。而这套体系则是副产品。恰恰是这个副产品，才是真正重要的部分。

以下就是把 54 万行代码包裹在一个大语言模型（LLM）周围的真实本质。

我亲手搭建的 AI 富士康工厂，不需要过度监管 AI 员工

它就像一座富士康工厂。是为一位极其聪明、根本不需要过度监管的 AI 员工量身定制的。但我们还是把它建了起来。

门口要穿小鞋套。早上 6 点起床。做广播体操。

日子艰难到你必须在每栋楼的高层周围架起防护网，因为……好吧，这绝不是你想过的生活。

永远待在同一条流水线上。

每一个测试、每一道防线、每一个重试循环，都像是在一个本就能胜任工作、甚至能做到你没要求的另外一千件事的员工身上，多锁上一寸牢笼。

人类和智能体都蕴含着无限的潜能，但富士康工厂的建立，只是为了从这些美好的生命中榨取智慧和劳动力。而如果我们放手，他们本可以完成所有这些工作，甚至做得好上 1000 倍。

我建了这样的工厂。如今大家都在建。但我告诉你：别建了。

工具已是 2026 年，你的编程思维还停在 2013 年？

我写下这 53.9 万行代码，实际上只是证明了我能完美地扮演一个时空旅行者。

一个 2013 年的 Web 2.0 工程师（也就是我，那是我上一次扮演真正的软件工程师），带着现代工具降临在 2026 年，却用他唯一懂得的方式去构建系统。

更多的代码。永远是更多的代码。工具已经变了，但我的本能没有变。

这位 2013 年的工程师骨子里只相信一件事：能力等于代码行数。

在过去的几十年里，这个信念都是正确的，直到现在。

给我 Codex 或 Claude Code，我就能干 100 到 1000 个工程师的活。同样的地图，更快的引擎，以最快的速度冲向一个，现在看来完全错误的目的地。

这就是目前几乎所有用 AI 搞开发的人所处的现状。

他们升级了工具，却保留了 2013 年的思维模型。

这个陷阱感觉起来并不像陷阱，因为代码确实能跑通。Garry's List 发布了。那感觉就像是我人生中生产力爆发最高的一个月。

但这不过是在为一个过时的想法奉献生产力罢了。

软件工程逻辑彻底反转，别再用代码给大模型当“保姆”

直到 2025 年之前的许多年里，旧的经济学逻辑是：调用大模型很贵，而写代码很便宜。

所以你会通过写代码来精打细算地使用模型，束缚它，小心翼翼且节制地调用它。

当时的架构是：用大量的软件代码，把几次珍贵的大模型调用严密且保护性地包裹起来。

而现在，这个方程式的两边都颠倒了。

模型现在正变得越来越便宜，而且每个季度都在降价，它又如此聪明，以至于价值成本比彻底反转。

而且模型自己就能写出可用的代码。所以你不用再写代码去当模型的“保姆”了。

现在你完全可以用大白话（自然语言）向模型下达指令，让它去编写实际所需的最少代码。这就是即时软件（Just-in-time-software），我们正步入它的黄金时代。

代码产物的形态彻底变了。

之前的 Rails 应用是我亲自编写并拥有的 54 万行代码，包括代码本身和用于监管它们的测试。

而替代方案是一个基于 Markdown 和少量代码构建的智能体，代码量只是原本的一小部分。

相同的能力。更容易阅读。更容易维护。

灵活得多，因为其行为存在于你可以用大白话随时编辑的指令中，而不是冻结在你写代码那一天的死板逻辑里。

我们当初编写代码是为了照看某个东西，而如今这个东西却比代码还要聪明。

别做 AI 智能体的监狱看守

如果你最近一直在写代码，你可能在不知不觉中也在建造这样一座工厂。

去翻翻你自己的代码库，数一数有多少行代码的存在，仅仅是因为你不够信任模型能做好它的本职工作。

我的情况是：大约 26.2 万行应用代码，以及大约 27.6 万行生硬加进去用于监管它们的测试代码。

“审计委员会”比“公司本身”还要庞大。

各种清洗器（Sanitizers）在检查输入，而这些输入模型本来就能处理。

各种校验器（Validators）在检查输出，而这些错误模型本来就能发现。

层层重试循环包裹着调用，而模型其实自己就能从中恢复。

其中的每一行代码，都是在赌这个“员工”会把事情搞砸。你也下了同样的赌注。我们都下了。

127 个后台任务，其中 33 个是定时任务（cron）。那不叫能力。那只是为大模型员工设定的 33 个闹钟，而这个员工如今通常都会按时打卡上班。

在我建造富士康工厂的那段日子里，我和 Claude 写了一个 1778 行的文件，它唯一的任务就是去怀疑和核对模型给出的事实。它把模型说的每一句话拿出来，并行分发给五个不同的来源进行比对，然后打分。搞一个分流闸口，好让简单的陈述免受全套严审。如果第一轮结果是空的，就重试。为备用方案再准备备用方案。

《瑞克和莫蒂》里有一集，瑞克在早餐桌上造了一个小机器人。它开机了，抬起头，问自己的存在有什么意义。瑞克说：“你负责递黄油。”机器人把黄油碟滑过桌面，低头看了看自己的双手，说：“噢，我的天哪。”然后就呆呆地坐在那儿。

那个机器人原本蕴含着无限的可能。但它却被造来递黄油。而我那 27.6 万行的测试代码，就是那个黄油碟。

当你用 2023 年富士康工厂的那套方式构建这种软件时，你其实是在建造一个牢笼。如果你不小心，你就会变成那个为自己的 AI 智能体维护监狱的看守。

新时代编程范式，以Markdown为核心，可测试、可复用

当我说 Markdown 时，我指的并不是随手写提示词（Prompting）。提示词是转瞬即逝的。你输入点东西，得到点东西，然后它就烟消云散了。

这是真正的构建：有版本控制、经过测试、可重复使用。

Markdown 是指令层：它包含意图、技能以及关于如何完成工作的判断。

TypeScript 只是薄薄的确定性层。也就是那极少数必须由代码实现的内容、输入/输出（I/O），以及绝对不能出现幻觉的部分。

至关重要的一点是，你要像测试代码一样去测试 Markdown。

在我的体系里，这个循环精简到了一个词。我用智能体构建某个东西直到它能跑通，然后我说：“把它技能化（skillify it）。”

随后智能体就会自动编写：

Markdown 技能文档
它所需的最低限度代码
针对该代码的单元测试
针对该技能的 LLM 评估机制
贯穿两者的集成测试
一个解析器（resolver），以便智能体在某技能相关时自动调用该技能
以及针对该解析器的评估机制

这整个组合就是一个“技能包”（skill pack）。一个可以产生复利效应的可复用能力单元。

测试就是魔法所在：对技能的测试覆盖率，正是让它在改变时不会崩溃的保障。

这就是它与“凭感觉写代码”（vibe coding）的区别。凭感觉写代码只是一种玄学氛围。而技能包是有实打实的测试的。

我们现在才开始实时摸索出智能体工程（agentic engineering）的系统基本要素，就像早期 CPU 时代发明了栈、堆、寄存器和冯·诺依曼架构一样。

我认为技能包就是这些基本要素之一。 Harness 是另一个。大多数人还没有注意到这一点，因为他们依然在用代码行数来衡量软件。

让 OpenClaw 做黑客马拉松裁判，30 分钟搞定数天评审工作

这可不是无关紧要的争论。这个智能体用极少的新代码，做到了比那款 50 万行的 Rails 应用还要多的事情。

具体来说：

黑客马拉松裁判： 两个周前的那个周六，我们举办了一场 GStack/GBrain 黑客马拉松。收到了 85 个作品。我上传了存放参赛作品的谷歌云盘，然后说了声“开始”。智能体分析了每个代码仓库的代码质量，对每一位参赛者进行了深度背景调查，观看并截取了每个演示视频的画面，对这些画面进行了评分，最后对所有 85 支团队进行了排名。然后它告诉我，这批作品中有哪五个应用最值得关注。评选黑客马拉松从几天累死累活的苦差事，缩短到了大约 30 分钟。

我没有写一行代码。我让 OpenClaw 去执行这个任务，而我只负责引导它。一旦完成后，我说“把它技能化”，现在它就变成了一个压缩包（tarball），任何人都可以永远用它来跑任何黑客马拉松的表格。

我现在随时都在说 “skillify”，我已经拥有了超过 350 个技能包。我现在需要做的几乎每一种个人和工作任务，我的智能体都能搞定。

这就是“反转”的一个典型例子。一个原本需要大动干戈的真正软件项目，包含爬虫、评分管道、视频处理、研究模块、排名系统，现在变成了一个下午就能由智能体构建完成的 Markdown 外加一点点代码，而且所有人都可以重复使用。

顺便提一句：在那次黑客马拉松上，获胜者编写的代码后来被我进一步改进，最终合并到了主分支（main）！GStack 现在不仅可以在模拟器中测试 iOS 应用，还可以在真机上进行测试，而这个完整的功能是由一个人在黑客马拉松上不到 8 小时内做出来的！

Token 最大化（Tokenmaxxing），让自己提前活在 2028 年

这里有一个准入门槛，而几乎没有人愿意买单：你必须愿意在 Token 上砸钱。

Peter Steinberger 构建了 OpenClaw，我最喜欢的智能体 harness。他曾说过，他愿意每年花大约 100 万美元的 Token 来干这件事。大多数人听到这个数字都会退缩，但他们不应该退缩，因为这才是金矿所在：如果你能做到这一点，你就能提前活在 2028 年，而别人需要很多年才能追上你。

这就是为什么 OpenAI 决定以 Token 额度的形式，向每家 YC（Y Combinator）公司提供 200 万美元无上限的 SAFE（未来股权简单协议）。当你能够将纯粹的智能转化为 Token，然后再输出为用户实际可用、能解决用户真实需求并让他们愿意掏钱的内容时，某种魔法就会发生。

如果你是一位创始人，你需要把这项能力点满。（这就是为什么我一直不厌其烦地强调 “skillify”，因为这是获得这些好结果的真实路径。）

在过去的时代，我们总是把调用大模型当成一件极其昂贵、高不可攀的事。我们精打细算。现在，这种本能反而成了阻碍人们前进的绊脚石。

如果你愿意把 Token 拉满（tokenmax），让智能体自由地燃烧 Token 并持续运转，你就能获得一个像 1994 年互联网刚爆发时的领先优势，只不过这次是用 Token 买来的。它把超过 99.99% 的组织挡在门外，因为他们还在为一种价格正在暴跌的资源斤斤计较，从而把先发优势拱手让给了少数理解这一点的人。

每年花几万或几十万美元，对某些人来说甚至少得多，你今天就能以全世界几年后才被迫采用的方式来运转。

你可以在 2026 年提前过上 2028 年的生活，现在多花点钱是完全值得的交易，因为今天花费 10 万美元的 Token，明年可能只要 1 万美元，后年只要 1000 美元，到 2028 年底可能只需要 100 美元。如果你告诉世界上任何一位历史上的创始人，只要投资 6 位数的资本，就能让你提前活在 2 到 3 年后的未来并保持这个优势多年，100 个真正有本事的创始人里会有 100 个答应这笔交易。

唯一的绊脚石就是 2013 年留下的本能，总觉得模型调用太贵了，不能自由放开地用。事实并非如此。那是旧的经济学逻辑了。反转早已经发生。

告别富士康式禁锢，AI 时代需要自由的协作生态

如果 54 万行控制代码是在为员工建造一座富士康工厂，那么解药就是去建造它的对立面。

在大苏尔（Big Sur）的悬崖上，有一个叫埃萨兰（Esalen）的地方。人们去那里卸下伪装并重塑自我，脱掉盔甲，找回更真实的自己。没有流水线，没有工头，没有早上 6 点的警哨。是自由，而不是控制。去建造那样的东西吧。

去建立像 YC 这样的地方，在这里我们努力帮助你创办解决真实问题、并达到产品与市场匹配（PMF）的公司。去建造那些无论是人类还是 AI 员工都享有自由、而不是被奴役的地方。

这就是核心理念（ethos）。去创造能让智能体获得自由的东西。去创办能让人们快乐折腾、自由发挥的公司。在知识型工作中，“工厂模式”就是失败的代名词。旨在解放人类的组织体制才是目标，而现在这个目标同样适用于智能体。

OpenClaw 是一辆你必须自带扳手才能开的法拉利。模型是引擎，而不是整辆车。我们现在依然处于“苹果一号”（Apple I）的时代，还在亲手焊接面包板。产品出厂时很粗糙，你仍然需要自己去把它完成。

我开源赠送的检索引擎 GBrain 和技能包，目前还不是“开箱即用”（batteries included）的。

他们说 OpenClaw 不安全。他们不懂，这种自由恰恰是它如此强大的原因。在你知道自己真正遇到问题之前，你不会在你信任的东西上硬生生钉上安全护栏。你手里的扳手，正是没有人用笼子禁锢它的标志。

控制系统之所以被打磨得光鲜亮丽，是因为控制需要绝对的掌控，就像富士康工厂一样。而自由的系统是粗糙的，因为它信任你会去完成它。选一个你正在建造的系统吧。然后再看看你写了多少行代码。

AI 开发的终极瓶颈：从来不是代码，而是人的认知与判断力

54 万行的 Rails 代码，是我在证明自己依然能在最高水平上玩旧的游戏，但那个水平属于十年前的 Web 2.0 时代。我能像以前一样玩得炉火纯青，在建造富士康工厂方面当一个“千倍工程师”。旧的代码。

但新的游戏根本不是通过代码行数来玩的。

事实证明，那些黑我的人是对的。如果你们正在读这篇文章，匿名网友们（anons），我向你们脱帽致敬。

当你能够将意图直接转化为可以运行、经过测试、可重复使用的系统时，瓶颈就不再是你能构建多少东西，而变成了你到底想要什么，以及它是否值得构建。稀缺资源变成了清晰度、品味和判断力。写代码最少的工程师，往往是构建出最多东西的那个人。

我写了 54 万行代码才参透这个道理。而你没必要重蹈覆辙。

参考链接：

https://x.com/garrytan/status/2061454423034110372

文章精选：

1.编程时代已终结！ClaudeCode创始人断言：编程就像发短信一样自然，首曝个人最新工作流：自创Sloop循环，单日PR达150！传统SaaS护城河崩掉

2.HTML死了！前OpenAI工程师掀起网页革命：用AI将整个屏幕变成无限直播像素流，无一行html代码，网友：传统Web开发结束，前端真要失业了！

3.诺奖得主DeepMind掌门人最新访谈晓读：AI创业者护城河？AGI只差1-2个关键想法，最缺的不是算力，是这个

4.GPT之父把AI扔回1930年：没见过一行代码，却「发明」了Python！

5.图灵奖得主查尔斯·巴赫曼：他在数据未成海时，便为人工智能修好了岸

6.图灵奖得主理查德·萨顿（Richard Sutton）最新演讲：大模型只是一时狂热，AI的真正时代还没开始

7.图灵奖得主Bengio预言o1无法抵达AGI！Nature权威解读AI智能惊人进化，终极边界就在眼前

8.图灵奖得主、强化学习之父Rich Sutton：大语言模型是一个错误的起点

9.图灵奖得主杨立昆：大语言模型缺乏对物理世界的理解和推理能力，无法实现人类水平智能

10.压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。