刚刚,Claude自曝80%代码AI写的,Anthropic呼吁停止研究AI
发布时间:2026-06-05来源:APPSO
截至 2026 年 5 月,Anthropic 超过 80% 的代码,都是 Claude 写的。然而今天,Anthropic 却发布了一篇博客,呼吁全球停止研究 AI。和过去一个最大的不同是,AI 能自己造 AI 了。用行业黑话说这叫递归自我改进(recursive self-improvement)。它的终点,是一个能完全自主设计、并训练出下一代自己的 AI 系统。AI 开始造 AI,而人类负责在旁边按下「开始」。1.Anthropic 代码库中超过 80% 的代码现在由 Claude 写的(2025 年初还不到 5%)2.2026 年 Q2,工程师人均提交的代码量是 2024 年的 8 倍4.Claude 优化训练代码的提速,一年内从 3 倍飙到 52 倍5.AI 能独立完成任务的时间跨度每 4 个月翻倍一次(从 4 分钟→1.5 小时→12 小时)6.Claude 在几周内发现了全球重要系统中超过 1 万个高危安全漏洞Anthropic 反复强调:递归自我改进还没发生,也并非必然。今天的 Claude 在执行层面已经超人,能把一个定义清晰的实验跑得比人快一个数量级;但在「该做哪个实验」「这个方向值不值得走」这类需要研究品味(research taste)的判断上,人类能守得住。不过,当「动手」在人类时间上趋近于零成本,研发的瓶颈就只剩判断力本身。而判断力会不会也变成下一个「AI 先做不好、然后突然就会了」的能力,没人敢打包票,Anthropic 自己也承认,AI 接管一切的未来可能真的会到来。当 AI 开始自己进化自己,这种完全的递归自我改进的最大风险,是人类可能失去对 AI 系统的控制。如果 AI 能完全自主地构建自己的继任者,那么怎么确保它安全、怎么监控它、怎么引导它的行为,这些问题都会变得前所未有的重要。https://www.anthropic.com/institute/recursive-self-improvement我们用的 Claude 是 Claude 自己写的截至 2026 年 5 月,Anthropic 代码库中超过 80% 合并进去的代码是 Claude 写的。2025 年 2 月 Claude Code 发布之前,这个数字还是个位数。工程师人均每天合并的代码行数在前四年(2021-2024)基本不变,2025 年开始爬升(Claude 开始自己运行代码,不只是给建议),2026 年再次陡升(模型开始自主长时间工作)。2026 年 Q2,普通工程师每天合并的代码量是 2024 年的 8 倍。当然,代码行数是不太完美的指标,8 倍可能高估了真实的生产力提升。但这确实说明了加速正在发生。在 2026 年 3 月一项覆盖 130 名研究员工的调查中,受访者估计使用 Mythos Preview 后产出增加了约 4 倍。还有一些「做了本来不会做的事」的证据:比如 2026 年 4 月,Claude 提交了 800 多个修复,把一类 API 错误降低了 1000 倍。负责人估计,人类完成这些工作需要 4 年——因为修别人的 bug 又慢又痛苦,而且人类很难在脑子里同时 hold 住那么多不熟悉的上下文。「好代码」有两个标准:能用,以及别人能看懂、能在上面继续开发。过去一年,Anthropic 员工需要在中间纠正、接管 Claude 工作的频率持续下降,即使在最复杂、最开放的任务上也是如此。2026 年 5 月,在最开放的任务上 Claude 的成功率达到了 76%,半年内提升了 50 个百分点。博客中有一个例子,一次常规升级导致数万个训练任务崩溃,工程师把 Claude 丢到项目中,只给了一些文本内容和集群访问权限;Claude 逐个排查运行中的任务,逐个测试环境设置,最终定位到了一个极其隐蔽的调试标志导致了崩溃,稳定复现并确认修复。大约 2 小时内,Claude 交付了人类通常需要 2-3 天的工作量。在可读可维护方面, 人机差距仍然存在,但正在快速缩小。2025 年底,很多员工觉得 Claude 代码质量还不如人类;现在基本打平;预计年内会超过人类。现在 Anthropic 的代码变更提案在合并前,会先由一个自动化的 Claude 审查器检查 bug、安全漏洞等缺陷。回顾分析发现,这种自动化审查本可以抓住 过去事故中约三分之一的 bug,而这些代码的作者已经是世界上最顶尖的工程师。除了能覆盖高质量和数量的代码,Claude 还会做实验。每次 Anthropic 发布新模型,都会跑同一个测试:给 Claude 一段训练小型 AI 模型的代码,让它在不改变正确性检查的前提下,尽可能加速这段代码。目标是固定的,所以 Claude 需要通过重写、运行、计时、反复迭代来找到提速方法。2025 年 5 月:Claude Opus 4 平均提速约 3 倍2026 年 4 月:Claude Mythos Preview 提速约 52 倍作为参考,一个熟练的人类研究员需要 4-8 小时才能达到 4 倍提速。这个「优化明确定义实验」的环节上,Claude 在不到一年内从「超级有帮助」进化到了「超越人类」。2026 年 4 月,Anthropic 发表了第一个由 Claude 端到端运行开放研究项目的演示。Claude Agent 被赋予一个 AI 安全问题,大概是「弱模型能否可靠监督强模型?」然后自己去解决。这包括:提出假设、测试假设、与并行 Agent 分享发现、迭代优化。任务有明确的「地板」和「天花板」:地板是弱监督者自己能做到多好,天花板是强模型用正确答案训练后的表现。两个人类研究员用大约一周时间,缩小了约 23% 的差距;而 Agent 们在 800 个累计小时内、花费约 1.8 万美元算力,缩小了 97% 的差距。有几点需要注意,结果未能完全迁移到生产规模模型,人类仍然选择了问题并设计了评分标准。但在这个范围内,Agent 自己设计了每一个实验。AI 评估机构 METR 有一个关键指标,「AI 能可靠独立完成的任务时长」,大约每 4 个月翻倍一次,而之前的节奏是每 7 个月翻倍。具体来说:2024 年 3 月:Claude Opus 3 能完成人类需要 4 分钟的软件任务2025 年:Claude Sonnet 3.7 能搞定人类 1.5 小时的任务2026 年:Claude Opus 4.6 能处理 12 小时的任务如果这个趋势持续,今年内 AI 可能胜任人类需要几天完成的任务,2027 年可能做到人类需要几周才能完成的任务。SWE-bench(真实软件工程测试):模型得分从个位数到接近满分,只用了 2 年CORE-Bench(AI 复现论文能力的测试):2024 年成功率约 20%,15 个月后基准被「饱和」Anthropic 总结了这个转变的五个阶段,从只是论文项目里面的一个 Claude,到演变为聊天机器人 Claude,再到今天的自主智能体 Claude。2021–2023,建造第一个 Claude。 早期,Anthropic 的工作和任何一家科技公司没什么两样:人们在笔记本电脑上写代码、写文档。2023–2025,聊天机器人。 人们用早期的聊天机器人来辅助流程中的某些环节,比如生成简短的代码片段,再把结果复制进文本编辑器。2025–2026,编程智能体。 随着智能体能力变强,它们开始能自己编写和修改代码,有时是整个文件。今天,自主智能体。 智能体现在能自己运行代码,并把数小时的工作委派给其他智能体。20XX?闭合循环。 未来,智能体可能强大到足以自己建造和训练模型。如果这一步实现,未来版本的 Claude 就可能由 Claude 自己持续改进。所以,未来 Anthropic 的工作会是什么样子?证据表明,在 AI 开发的每个环节,人类的角色都在收窄。一旦人机代码质量达到 parity,人类将停止写代码,只负责审查。但如果人类审查速度跟不上 Claude 的生成速度,人类审查就成了瓶颈。同样,一旦 Claude 能自主运行实验,问题就变成了「这些实验哪个值得跑?」简单来说:执行(写代码、跑实验、出结果)现在几乎不花人类时间了,虽然仍然要消耗算力。目前人类仍有比较优势的领域是研究品味和判断力,包括选择哪些问题重要、哪些结果可信、什么时候该放弃一条路。一个自然的反驳是:仍然由人类掌控的「选择做什么问题」才是最重要的。没有这种判断力,Claude 只是个能干助理,而非能自主推动 AI 进步的体系。这确实不确定:今天的训练方法和架构能否解锁这种能力,不太清楚,但 AI 的进步很少靠「尤里卡」时刻。Transformer 架构、混合专家模型这类范式级创新确实重要,但它们几年才出现一次。大多数进展是渐进式的:扩大规模、看看哪里崩了、修复、再试,这正是 Claude 现在最擅长的工作流。即使 Claude 永远达不到好的研究品味,仍然意味着复合加速:如果人类把大部分时间花在那 1% 的方向设定上,而 Claude 处理其余一切,那意味着每个工程师或研究员驾驭的工作量远超从前。Project Glasswing 是一个早期信号:在推出前几周,Mythos Preview 就在全球最重要的系统中发现了 超过 1 万个高危/严重级软件漏洞,多到网络安全防御的瓶颈已经从「找漏洞」变成了「补丁打不打得过来」。而且今天的模型向更广泛经济渗透还处于早期,一个 100 人的公司越来越能做出 1000 人的活,因为每个员工脚下都踩着一座 Agent 金字塔。我们列出这个场景是为了完整,但我们不认为这很可能。我们测量的每一项能力,包括代码质量、开放任务成功率这些「软」指标,都在沿同一条曲线上升,目前没有看到曲线弯曲的迹象。场景二:AI 实验室持续看到复合效率提升(最可能)在这个场景中,AI 开发实质性自动化,但人类继续设定研究方向和评判结果。使用 AI 系统的组织效率会持续提升,预期每个人身上都会产生巨大的生产力乘数。100 人公司可能做出 1 万人甚至 10 万人的活。这会彻底改变知识工作和各项服务,但也可能被用于有害目的。在 Anthropic 这样的公司,人类角色会转变:人们与 AI 系统合作扩大研究规模、产生新洞察,共同构建验证 AI 输出是否可信所需的系统。而加速流程的一个环节往往只是把瓶颈转移到别处,整体速度受限于还没加速的环节。这就是计算机领域的阿姆达尔定律,同样适用于组织。Anthropic 已经遇到这一情况,随着代码产出暴增,人类代码审查成了新瓶颈。工程之外也有类似摩擦:由于员工与高能力的模型合作,新想法、新动机、新工具和模拟呈爆发式增长,远超我们有能力跟进的数量。组织发现和消除瓶颈的速度,可能是随时间提升的技能,也可能成为任何组织最重要的能力。如果技术能力持续提升趋势延续,并且 AI 系统能发展出变革性人类创造力的固有能力,那么 AI 系统设计和优化自己是很合理的。在这个世界里,AI 开发的速度完全由算力可用性决定(或在算法训练/推理中发现各种效率的速度)。人类角色大幅削弱,大部分努力转向对一个由 AI 系统运行的不断扩张的「虚拟实验室」进行监督、验证和核实。能够自动进行 AI 研发的系统,其技能也会转移到其他科学领域,开始进化其他学科。在这个未来中,对齐问题如何解决(或不解决)是我们最不确定的。模型可能足够对齐且具备足够的研究品味,能发现并实施我们尚未想到的新颖解决方案;也可能足够明智,在不对齐时主动停止开发。或者,今天模型中存在的罕见不对齐情况,可能在模型构建继任者的过程中复合放大,变得更频繁却更难理解,直到我们失去控制。我们可能无法构建、整合和验证所需的工具,来理解我们实际处于哪条趋势线上。这篇博客最重磅、也最具争议的,是 Anthropic 最后抛出的呼吁:他们认为全球应该选择放慢或暂时暂停前沿 AI 开发,而且如果其他前沿实验室也愿意可验证地停下来,他们自己也会慢下来甚至暂停。Anthropic 指出,一个实验室单方面暂停他们现在也可以做,但几乎没有意义,它只会改变「谁是领跑者」,不会创造更广泛的审议空间。有意义的暂停需要多个地区的多个资源充足的实验室同意在同一条件下停止,并且彼此能验证对方真的停了。组织多方对话,邀请政策制定者、研究人员、民间社会和其他 AI 公司共同探讨博客中明确地说:「一个可信的暂停还要明确什么触发它、什么解除它、谁来做裁决。」这些制度在其他领域花了几十年才建立起来,现在 AI 领域没有那么多时间。不过 Anthropic 的态度是:先把体系建起来,让「停下来」成为一个可行的选项。过去我们安慰自己,AI 再强也只是工具,方向盘还是握在人手里。看完 Anthropic 这篇文章,你会发现人类先是不写代码,只审代码,到现在审核速度可能也没 AI 写得快,然后审核也交给 AI ,于是人类再退一步,只决定「该跑哪个实验」;等到 AI 继续计划,连「选什么」的准确率也许也会大幅提升,很难不让人怀疑这道防线迟早也会失守。所谓的人类核心优势,没有人再能保证它的有效期。爱迪生说天才等于 1% 灵感加 99% 汗水,如今 99% 那部分正被外包出去。问题在于,灵感从来不是凭空长出来的,它长在汗水里。一个从不亲手跑实验、从不在崩溃的训练任务里熬过通宵的人,凭什么相信自己还能生出那 1% 的判断力?把汗水全交出去,省下的时间,究竟用来积累更高级的判断,还是用来遗忘判断从何而来,这才是最细思极恐的问题。
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。