深度|红杉对话卡神:不是所有软件都值得被重做,很多APP会直接消失

图片来源:Sequoia Capital
在过去一年里,AI 编程最大的误解是:很多人还以为它只是“更聪明的代码补全”。但 Andrej Karpathy 给出了一个更激进的判断:真正的拐点已经在去年 12 月发生了。
从那之后,AI 编程开始进入一套更连贯的 Agent 工作流:它能理解任务、拆解步骤、调用工具、写代码、调试、部署,甚至在某些场景里,已经让人类工程师从“亲手写代码”退到“设计任务和验收结果”的位置。
这也是为什么 Karpathy 会说,自己作为程序员从未感到如此“落后”。这句话最有冲击力的地方在于,它不是来自一个被 AI 冲击的传统从业者,而是来自一个亲手参与过现代 AI 浪潮的人。换句话说,连 Karpathy 都开始重新适应编程,说明这件事已经不是效率工具升级,而是软件生产方式的底层改写。
从“类ChatGPT”到连贯Agent工作流
Stephanie Zhan:我们非常激动地迎来第一位特别嘉宾。他曾帮助构建现代AI,然后解释现代AI,甚至偶尔还重新定义了现代AI。他实际上就在这间办公室里参与创立了OpenAI;当年在Tesla,是他让自动驾驶真正落地;他拥有一种罕见的天赋,能让最复杂的技术变革听起来既易于理解又势在必行。
你们都知道他去年创造了“Vibe Coding”这个词,但就在最近几个月,他说了些更令人吃惊的话:他说作为一名程序员,他从未感到如此“落后”。这就是我们今天话题的起点。感谢Andrej参加我们的节目。
Andrej Karpathy:是的,大家好。很高兴能来到这里来开场。
Stephanie Zhan:好的,就在几个月前,你说你作为一名程序员从未感到如此落后这话从你嘴里说出来真的很惊人。你能帮我们拆解一下吗?这种感觉是令人兴奋,还是令人不安?
Andrej Karpathy:是的,肯定是两者兼有。首先,我想和在座的许多人一样,我已经使用Claude Code 或类似的Agentic工具有一段时间了。去年刚推出时,它们在生成代码块方面表现不错,但有时会出错,你得去手动修改,算是有点帮助。
但对我来说,去年 12 月是一个明确的转折点。我当时在休假,时间比较充裕。我想很多人也有类似的感觉。我开始注意到,使用最新的模型,生成的代码块竟然完全没问题。然后我不断地要求更多,结果也都很完美。我甚至记不起上一次手动纠正它是什么时候了。我开始越来越信任这个系统,然后我就全身心回到了编码中。所以我认为这是一个非常剧烈的转变。
我在Twitter上一直试图强调这一点,因为我觉得很多人对AI的认知还停留在去年的“类ChatGPT”阶段,但你真的需要重新审视,特别是从去年十二月开始,因为情况发生了根本性的变化。尤其是这种连贯的Agentic工作流,它现在真的能跑通了。
我意识到自己已经掉进了“无尽侧边项目”的兔子洞(ZP注:指从一件小事开始,越挖越深,难以自拔的情况)。我的侧边项目文件夹现在塞得满满当当,全都是各种随手通过“Vibe Coding”搞出来的东西。这一切都发生在 12 月。从那以后,我一直在思考这件事的影响。
神经网络成为“主机”,重构软件形态与计算架构
Stephanie Zhan:你经常提到“大型语言模型是一台新电脑”这个观点——它不只是一个更好的软件,而是一个全新的计算范式。软件1.0是显式规则,软件2.0是学习到的权重,软件3.0就是现在的样子。如果这确实是真的,那么一个团队如果真的相信这一点,他们在构建产品时会有哪些不同?
Andrej Karpathy:对,正是如此。软件1.0是我写代码。软件2.0是我通过创建数据集和训练神经网络来编程,所以编程有点像整理数据集,再加上一些目标函数和神经网络架构。然后发生的事情是,如果你在足够多的任务集上训练这些GPT模型或大型语言模型——隐式地,因为通过在互联网上训练,你必须处理数据集中所有多任务——它们在某种意义上实际上变成了一种可编程的计算机。
所以软件3.0大致是关于:你的编程现在变成了提示(prompting)。而上下文窗口就是你操作解释器——也就是大型语言模型的杠杆,大型语言模型解释你的上下文并在数字信息空间中执行计算。我想,这就是那个转变。
我想到了几个例子,它们真正触动了我,或许很有启发。比如安装OpenClaw。通常你觉得这应该是一个Bash脚本,一个 shell 脚本。运行这个shell脚本就能安OpenClaw。但问题在于,为了适配各种平台和电脑环境,这些脚本往往会变得极其复杂且庞大。如果你还困在“软件1.0”的宇宙里,你就总想写出完美的安装代码。但在“软件3.0”范式下,OpenClaw的安装其实就是一段文本的复制粘贴,你把它丢给Agent 就行了。
之所以这样做更强大,是因为你不需要精确地拼写出每一个设置细节。Agent有自己的intelligence,它会查看你的环境和电脑,执行intelligence操作来完成任务并在循环中调试。这要强大太多了。所以我认为这是一种非常不同的思考方式。这比预设代码强大得多。现在的编程范式变成了:你给Agent复制粘贴一段什么样的指令?
还有一个更极端的例子,是我在构建MenuGen的时候。MenuGen的想法是,当你去一家餐厅,他们给你菜单,通常没有图片,所以我根本不知道那些都是什么东西。大概30%的菜品我完全不知道是什么,甚至50%。所以我想拍一张餐厅菜单的照片,然后得到这些菜品的通用图片。于是我用字节码做了一个应用,它可以上传照片,做各种处理,运行在Vercel(ZP注:美国云服务公司,用于一键部署网站/前端)上进行OCR识别,调用图像生成器生成菜品图片,最后重新渲染菜单展现给用户。然后,我看到了这个应用的“软件3.0版本”,简直让我惊掉下巴:它就是直接拍张照片,交给Gemini,然后说“用Nano Banana模型把这些菜的图片覆盖在菜单上。”Nano Banana 直接返回了一张图像,那张图就是我拍的菜单原图,但它在像素层面上直接渲染出了每道菜的样子。这让我意识到,我之前写的那个MenuGen应用简直是多此一举。那个应用根本不该存在。
软件3.0的范式要原始和直接得多。神经网络承担了越来越多的工作,你的提示词或上下文就是输入一张图片,输出也是一张图片,中间根本不需要任何传统的应用代码。
所以,人们必须重构思维:不要只把AI看作现有流程的加速器,而是要意识到全新的可能性已经出现了。回到你关于编程的问题——这甚至不仅仅关乎编程,这是一种全新的、自动化的通用信息处理。
以前的代码处理的是结构化数据,对吧?你编写代码处理结构化数据。但现在,举个例子,比如我的“大型语言模型 知识库”项目,你可以让大型语言模型为你的组织或个人创建维基百科。这甚至不是一个程序。这在以前是不可能存在的,因为没有代码能基于一堆事实自动创建知识库。但现在,你只需把文档丢进去,在不同的维度上重新编译和排序,就能创造出全新的、有趣的东西。这些都是以前不可能的新事物。
所以,我认为这是我一直试图回归和强调的一点:我们不仅仅是让过去已有的事情变得更快,更重要的是,这里出现了全新的机遇,去实现那些以前根本不可能做到的事情。我甚至觉得,这一点才更令人兴奋。
Stephanie Zhan:我非常喜欢你刚才提到的MenuGen的演进过程及其反映的范式对立。而且我相信,在座的很多人也关注了你从去年十月到今年一月、二月在编程方式上的转变。如果将这种趋势进一步推演,到2026年,什么样的事情会像“90年代建网站”、“2010年代开发移动应用”或“上一代云时代的SaaS”那样成为时代标志?
有哪些东西在今天看来还没被完全构建出来,但在未来回看时却显得理所应当?
Andrej Karpathy:沿用MenuGen的例子,我想说,很大一部分现有的代码其实都不该存在,因为神经网络承担了绝大部分工作。如果进行外推,未来的图景会显得非常“诡异”——你可以想象一种在某种意义上完全由神经驱动的计算机(Neural Computers)。你可以想象这样一种设备:它将原始视频或音频输入到神经网络中,然后通过Diffusion直接渲染出一个界面——而且这个UI可能是专为那一刻的特定情境而生成的。
回看计算机发展的早期阶段,人们其实对计算机的未来感到困惑:它究竟应该长得像一台“计算器”,还是长得像一个“神经网络”?在50和60年代,这两种路径谁会胜出并不明显。当然,后来我们选择了计算器路径,建立了经典架构计算体系。
但我认为未来可能会发生翻转:神经网络将成为主机进程,而CPU则沦为协处理器。从算力的演进图表中可以看到,神经网络消耗的算力将占据主导地位。所以你可以想象一种非常奇特、陌生的未来:神经网络承担了大部分繁重工作,它们仅仅把传统的确定性工具当作处理某些任务的历史附件。而真正掌管全局的,是以某种方式联网协作的神经网络。所以推演下去,你可能会得到一种极其陌生的未来。不过我觉得我们可能会一步一步地走向那里。而这个过程会是什么样,现在还不好说。
从“草莓”悖论到万物自动化:如何利用可验证性寻找AI创业红利
Stephanie Zhan:我想聊聊“可验证性(Verifiability)”这个概念。有一个观点是:如果某个领域的输出结果是可以被验证的,那么AI自动化该领域的速度就会更快、更容易。如果这个框架是对的,那么哪些工作即将以远超人们想象的速度发生变革?又有哪些职业,人们以为很安全,但实际上具有很高的可验证性?
Andrej Karpathy:是的,我花了一些时间写关于可验证性的内容。基本上,传统计算机可以轻松自动化那些你能用代码明确指定的事情。而最新一轮的大型语言模型可以在某种意义上轻松自动化那些你能验证的事情。因为其工作原理是:前沿实验室在训练这些大型语言模型时,会构建巨大的强化学习环境,并为模型提供验证奖励。由于这种训练方式,模型最终会不断进步,形成一种“锯齿状”的能力形态——它们在数学、代码及相关可验证领域的能力会达到巅峰,但在那些不属于此类空间的领域,表现就会停滞不前,甚至显得有些粗糙。
我写可验证性这个话题,部分原因就是是为了理解为什么模型的能力是“锯齿状”。一部分原因在于实验室如何训练模型,但也与实验室的关注点以及他们碰巧放入了哪些数据分布有关。因为有些任务在经济中的价值显著更高,实验室更希望模型在这些场景下工作,从而创建了更多的训练环境。代码就是一个很好的例子。可能还有很多你可以想到的可验证环境,但并没有被纳入训练,因为拥有那些能力对社会没那么有用。
对我来说,一个长期存在的谜题——一个我很喜欢的例子——是“strawberry里有多少个字母r”。模型曾经常常答错,这就是能力锯齿化的一个例子。现在模型已经修补了这个问题,但现在又有了个新的例子是:我去洗车,洗车店就在50米外,我应该开车还是走过去?目前最先进的模型会告诉你走过去,因为太近了。这简直疯了:为什么目前最强的Opus 4.7可以同时重构10万行代码,或者发现零日漏洞,却会告诉我“走路去洗车”?
只要这些模型仍然存在这种“锯齿”,就说明:第一,可能底层逻辑还有些偏差;第二,你依然需要保持“人在回路(Human in the loop)”,把它们当作工具来对待。你必须密切关注它们正在做什么。
我关于可验证性的所有论述,归根结底就是在试图理解这种“锯齿状”背后的规律。我认为这是“可验证性 + 实验室关注度”的组合结果。还有一个有启发的例子:从GPT-3.5到GPT-4,人们注意到它的国际象棋能力提升了很多。很多人以为这仅仅是能力的自然进步。但实际上,更可能是因为——这是公开信息,我在网上看到过——大量的国际象棋数据被加入了预训练集。仅仅因为数据分布的变化,模型的能力提升就远超默认水平。OpenAI 的某个人决定加入这些数据,于是这项能力就登峰造极了。
这就是为什么我想强调这个维度:我们在一定程度上受制于实验室在做什么受制于他们碰巧在“大锅”里放了什么。你必须去探索这个没有任何说明书的黑盒。它在某些设置下有效,在另一些设置下可能无效。你需要自己去探索。如果你的任务正好处于强化学习训练中覆盖过的,那么你会表现得飞起;如果你的任务处于数据分布之外,你就会举步维艰。你得搞清楚你的应用属于哪条线路。如果不在既有线路上,你就得考虑微调或者自己做一些的工作,因为这不会是大型语言模型开箱即用的能力。
Stephanie Zhan:我想再回到“锯齿状intelligence”这个概念上聊一聊。如果你今天是一位创始人,正在考虑创办一家公司,你想解决一个你认为可行的、属于可验证领域的问题。但你环顾四周,发现实验室确实已经在最显而易见的领域——比如数学、编程等——开始达到指数级高速爆发速度了。那么你对在座的创始人有什么建议?
Andrej Karpathy:我觉得这可能回到了之前的问题。我确实认为,在当前范式下,可验证性使问题变得可行,因为你可以对其投入大量的强化学习。一种理解方式是:即使实验室没有直接关注某个领域,这一逻辑依然成立。如果你处于一个可验证的场景中,能够创建这些强化学习环境或示例,那么你就具备了进行自主微调(Fine-tuning)的条件,并能从中获益。
这在本质上是一项“只要投入就有产出”的技术。你只要握住这个杠杆——如果你有大量多样化的强化学习环境数据集,你可以用你喜欢的微调框架,拉动杠杆,就会得到相当好的结果。
我不知道具体例子是什么,但我确实认为有一些非常有价值的强化学习环境是大家可以想到的,但还没有被纳入……我不想直接揭晓答案,但确实是存在这样一个领域。抱歉,我不是想在台上含糊其辞,但确实有这样的例子。
Stephanie Zhan:反过来看,你认为有哪些事情是“远看可以自动化,近看却行不通”的?
Andrej Karpathy:我确实认为,最终几乎所有事情在某种程度上都可以变得可验证。有些事容易些,有些难些。因为即使对于写作之类的事情,你也可以想象一个由多个大型语言模型评委组成的评审团,通过这种方法可能也能得到合理的结果。所以这更多是关于哪些容易、哪些困难。所以我确实认为,最终……
Stephanie Zhan:一切。
Andrej Karpathy:一切都可以自动化。
Vibe Coding降低开发门槛,;Agentic工程拉升生产力天花板;人类的核心价值转变
Stephanie Zhan:太棒了,好。去年你创造了“Vibe Coding”这个词,而今天我们处在一个感觉更严肃、更偏向“agentic工程”的世界。你认为两者之间的区别是什么?你会如何称呼我们今天所处的这个阶段?
Andrej Karpathy:是的,我会说“Vibe Coding” 关乎的是提高所有人在软件开发上的“下限”。在软件领域能做的事情的下限。下限提高了,每个人都可以进行Vibe Coding,这非常棒,不可思议。但“agentic工程”关乎的是维持专业软件原有的“质量标准”。你不能因为用了“Vibe Coding”就引入安全漏洞。你依然像以前一样要对你的软件负责,但你能跑得更快吗?剧透一下:你能。但如何正确地做到这一点呢?
对我来说,我称之为 agentic工程,是因为我确实认为它是一种工程学科。你拥有这些agents——它们是“锯齿状”的实体,有点容易犯错,有点随机性,但它们极其强大。问题在于,你如何协调它们,在不牺牲质量门槛的前提下跑得更快?把这件事做好、做对,就是agentic工程的领域。
所以我把它们看作不同的东西:如果说“Vibe Coding”是抬高底线,那么“Agentic工程”就是向上拉升天花板。我所看到的是,Agentic工程师的能力天花板非常高。以前人们总谈论“10倍效率程序员”(10x Engineer)。我认为这种效应被放大了。你获得的加速提升远不止10倍。从我目前的观察来看,那些擅长此道的人,其能力的巅峰远超10倍。
Stephanie Zhan:我非常喜欢这个框架。去年Sam Altman来AI Ascent的时候,他说过一句令人印象深刻的话:不同世代的人使用ChatGPT的方式不同。30多岁的人把它当作Google搜索的替代品;而十几岁的青少年,ChatGPT是他们通往互联网的门户。这在今天的编程领域有什么相似之处?如果我们观察两个人使用OpenClaw、Claude Code、Codex进行编程——其中一个你认为水平一般,另一个是完全的“AI原生”开发者,你会如何描述他们之间的差异?
Andrej Karpathy:我认为差异就是如何充分利用现有工具、充分使用它们的所有功能、以及投资于自己的开发环境配置。
就像过去所有工程师都习惯于充分利用他们使用的工具一样——无论是Vim还是VS Code,现在则是Claude Code或Codex等等。所以,所谓的 AI 原生,就是不断优化你的配置并深度调用所有可用的工具。
我觉得一个相关的想法是,很多公司现在都在招聘,因为他们想雇佣强大的“Agentic工程师”。但我观察到,大多数公司还没有根据“Agentic工程能力”来重构他们的招聘流程。如果你还在出一些解谜式的算法题,那说明你还停留在旧范式里。我认为招聘应该变成这样:给应聘者一个庞大的项目,看他如何实现它。比如:“写一个供Agent 使用的Twitter克隆版,要让它非常出色且极其安全。然后,让一些Agents在这个 Twitter上模拟活动。接着,我会动用10个Codex 5.4 X-High模型尝试攻破你部署的这个网站。如果它们无法攻破,才说明你过关。”
面试过程或许应该是这样的。观察一个人在这种设定下如何构建大型项目并运用工具,才是我最看重的部分。
Stephanie Zhan:随着Agents 做得越来越多,你认为什么样的人类技能会变得更有价值,而不是缩水?
Andrej Karpathy:这是个好问题。我认为,目前的情况是,agents有点像实习生一样的存在,对吧?这很神奇。你基本上依然需要负责审美、判断力、品味,以及一定程度的监督。关于Agent那种“诡异逻辑”,我最喜欢的例子还是MenuGen:你用Google账户登录,但用 Strip 账户购买积分,两者都有电子邮件地址。我的Agent在处理购买积分时,会尝试用Stripe的邮箱地址去匹配Google的邮箱地址来分配积分,因为它没有为用户建立持久的唯一ID。它会尝试匹配邮箱地址,但如果你为Stripe和Google使用不同的邮箱,它基本上就无法关联资金。
这就是agents仍然会犯错的事情。什么会想着用邮箱去跨系统关联资金呢?邮箱地址可以是任意的,你可以用不同的邮箱等等。这做法实在太奇怪了。所以我认为人们必须负责制定规范和蓝图。
其实我甚至不太喜欢现在的“计划模式”。虽然它很有用,但我认为更通用的方式是:你必须与你的agent一起设计一个非常详细的规范,可以是文档,然后让agents去编写代码。你负责监督和顶层分类,而agents负责底层的大量工作。
这样你就不必再纠结于某些细枝末节。举个例子,在神经网络的张量操作中PyTorch、NumPy、Pandas之间有无数细碎的API细节。我已经忘了keepdims还是keepdim,也忘了到底是dim还是axis,者是该用reshape、permute还是transpose。我不再记得这些东西了,对吧?因为你不需要。这种细节交给“实习生”去处理就行,因为它们的检索能力极强。
但你依然需要理解底层的逻辑:比如这里有一个基础张量,那里有一个视图,你可以操作同一块存储空间的视图,也可以创建不同的存储空间(但这会导致效率降低)。所以你仍然需要理解这些东西在做什么以及一些基本原理,这样才不会产生不必要的内存拷贝。你交出的是API的琐碎细节,而不是底层的工程直觉。
所以,你负责品味、工程设计、整体构思,确保逻辑通顺,确保你提出正确的要求,确保你说“好的,这些必须是唯一的用户ID,我们将把所有东西关联到它”。你做一些设计和开发工作,而agents负责填空。这大致就是我们现在所处的状态。我认为这也是每个人现在都看到的。
Stephanie Zhan:你认为这种“品味”和“判断力”的重要性会随着时间推移而降低吗?还是说天花板会持续升高?
Andrej Karpathy:好问题。我希望这方面能有所改善。我认为它目前没有改善的原因,可能还是因为它不在强化学习的范围内。可能训练中没有关于“审美”的成本函数或奖励机制,或者还没做得足够好。有时我看AI写的代码会感觉心肌梗塞,因为它并不总是那么让人惊艳。代码往往很臃肿,有很多复制粘贴,或者使用了一些脆弱、笨拙的抽象。虽然能跑通,但真的很“恶心”。我希望未来的模型能改善这一点。
一个很好的例子是micro-GPT项目,我试图将大型语言模型训练简化到极致。但模型“讨厌”这种任务,它们做不到。我一直提示它“再简化一点,再简化一点”,但它就是不行。那时候你会感觉自己处于强化学习覆盖范围之外,就像在拔牙一样费劲,完全没有那种“光速开发”的快感。所以我确实认为人们仍然要为此负责,但再次强调,并没有什么根本性的障碍阻止AI掌握这些,只是实验室目前还没腾出手来做这件事而已。
从“召唤幽灵”到“Agent原生”:在后人类时代重构自动化基础设施
Stephanie Zhan:我想回到“锯齿状intelligence”这个想法。你写过一篇非常发人深省的文章,关于“动物vs幽灵”的差异。大意是:我们不是在“制造动物”,而是在“召唤幽灵”。这种锯齿状的intelligence是由数据和奖励函数塑造的,而不是像生物进化那样,由内在动机、乐趣、好奇心或自我赋权驱动。为什么这个思维框架很重要?它如何改变你构建、部署、评估甚至信任AI的方式?
Andrej Karpathy:是的。我写这个是因为我试图理解这些东西到底是什么。因为如果你能建立一个准确的模型,看清它们“是”什么、“不是”什么,你使用它们时就会更游刃有余。我不确定这是否真的具有某种“实战威力”。它确实带有一点哲学思辨的味道。但我认为,这其实是让自己接受一个事实:它们没有动物般的intelligence。
比如,如果你对它们大喊大叫,它们的工作效率不会因此变高或变低,这完全没有影响.它们本质上只是“统计模拟回路”,底层是预训练,也就是统计学,但上面又用强化学习进行加固,所以它增加了各种能力分支。
也许这只是一种心态:即什么样的方法可能奏效,什么样的方法不行,以及如何去调整它。但我实际上不知道……我并没有总结出什么“让系统变强的五大秘诀”。它更多是让你保持一种警惕心,并在实践中慢慢摸索。
Stephanie Zhan:这正是变革的起点。好的,你现在正深耕于那些不只是聊天、而是拥有真实权限、拥有本地上下文、并真正代表你采取行动的agents一起工作。当我们所有人都开始生活在这样一个世界时,世界会变成什么样?
Andrej Karpathy:我想,在座的很多人可能都对这种“原生agentic环境”感到兴奋。一切都必须重写。现在一切从根本上仍然是为人写的,所以所有东西都得调整。
这就是我最爱吐槽的一点:我目前使用的绝大多数框架或库,它们的文档从根本上还是写给人类看的。我真的受够了,为什么人们还在文档里教我该怎么做?我什么都不想做。我只想知道,我该把哪段文字复制粘贴给我的Agent?每次我被告知“请访问这个URL”之类的时候,我都会觉得很心累。所以每个人都很兴奋的是:所以,大家都很兴奋于如何将工作负载分解为感知世界的“传感器”和操作世界的“执行器”。我们该如何实现“Agentic原生化”?
首先是向Agents描述这个世界,然后围绕对大型语言模型极其易读的数据结构建立大量的自动化流程。我希望未来能出现大量“Agent优先”的基础设施。
在开发MenuGen时,最让我头疼的其实不是写代码,而是把它部署到Vercel上。因为我必须处理所有这些不同的服务,把它们串联起来,去翻看各种设置菜单,配置 DNS……这简直烦透了。这是一个很好的例子。我希望未来我能直接给大型语言模型一个提示词:“构建MenuGen”,然后我不需要动任何地方,它就能直接在互联网上部署运行。这将是衡量我们的基础设施是否变得“Agent原生化”的一个很好的测试。
最终,我想说,我们正在走向一个世界,人和组织都有自己的Agent代表。我的 Agent会跟你的Agent交谈,敲定会议细节之类的。我认为大方向就是这样,大家都在为此感到兴奋。
不可外包的理解力:在intelligence廉价时代,人类如何做好AI时代的“导演”
Stephanie Zhan:我真的很喜欢“传感器”和“执行器”这个视觉类比。我之前真没想到过这个,非常有意思。
好,我想我们最后必须以一个关于教育的问题结束,因为你可能是世界上最擅长把复杂技术概念讲得简单、并且在如何围绕AI设计教育方面有深刻思考的人之一。当我们进入AI的下一个时代,intelligence变得廉价时,还有什么事情仍然值得深入学习?
Andrej Karpathy:是的。最近有一条推文让我大受震撼,我几乎每隔一天就会想起它。那句话的大意是:“你可以外包你的思考,但你无法外包你的理解。”
Stephanie Zhan:我觉得这句话说得非常好。
Andrej Karpathy:是的。因为我仍然是这个系统的一部分,信息依然必须以某种方式进入我的大脑。我觉得我正成为一个瓶颈——我需要知道我们到底想构建什么?为什么值得去做?我该如何指挥我的Agents?等等。所以我确实认为,最终仍然需要某种东西来指导思考和处理过程等等,而这种力量在某种程度上仍然受限于你的“理解”。
这也是为什么我对所有大型语言模型知识库项目非常兴奋的原因之一,因为我觉得那是我处理信息的一种方式。每当我看到信息的一种不同投影面时,我总觉得获得了新的洞察。所以对我来说实际上是利用提示词对某些固定数据进行“合成数据生成”。我非常享受这个过程。每当我读一篇文章,我的维基百科就会根据这些文章构建起来。我喜欢就这些内容提出问题。我认为归根结底,这些工具是为了在某种程度上增强我们的“理解”。而目前,“理解”仍然是一个瓶颈。如果你自己不理解,你就无法成为一名优秀的“导演”——因为大型语言模型目前显然并不擅长“理解”。你仍然是唯一负责理解的人。所以,我认为那些能够辅助理解的工具是非常有趣且令人兴奋的。
Stephanie Zhan:我很期待几年后能再回到这里,看看我们是否已经被完全自动化并踢出了系统,看看它们是否连“理解”也一并接管了。非常感谢 Andrej 参加我们的节目,获益匪浅。
原视频: Andrej Karpathy: From Vibe Coding to Agentic Engineering
https://www.youtube.com/watch?v=96jN2OCOfLs
编译:Qi Tu

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。


