GitHub,被 AI 打穿了

作者|宇航猿
今年 2 月 9 日,北京时间深夜,全球数以千万计的开发者打开 GitHub,看到了同一个页面。
不是 404,比 404 更让人焦虑——是那个让所有工程师后背发凉的黄色警告条,加上状态页上一排排从绿色变成红色的指示灯。
github.com 挂了。
API 挂了。
GitHub Actions 挂了。
Git 操作挂了——就连 Copilot 也没能幸免。
那一晚,有人的 CI/CD 流水线在最关键的节点停摆,有人的自动化部署卡在了半空中,还有人在等待一个迟迟无法合并的 PR——背后是一个等待上线的功能,等待的是真实用户。
事后 GitHub 发布了事故报告。根本原因,用技术语言说,是「一个负责认证和用户管理的,核心数据库集群过载」。但这几个字背后藏着一条触目惊心的触发链——
两天前,工程团队为了尽快给用户推送一个新模型,把一个「用户设置缓存」的刷新时间从 12 小时改成了 2 小时。就是这一个配置数字的改动。
结果,本来分散在 12 小时内完成的缓存重写,被压缩进了 2 小时,形成了一次密集的「缓存重写风暴」,异步任务队列被瞬间打爆,共享基础设施组件崩溃,连锁反应蔓延到了负责代理 HTTPS Git 操作的服务,最终导致整个平台的连接耗尽。
一个数字,从 12 改到 2。
GitHub,是被自己改的一个配置打穿的。
但如果你只看到这一个配置改动,那你大概错过了这个故事最重要的部分。
01
不是一次意外,是十次意外
2 月 9 日的事故,不是一个孤立事件。
事实上,2026 年的前三个月,GitHub 经历了至少 8 次重大事故。2 月份单月就有 37 次大大小小的故障记录。GitHub 的 CTO Vlad Fedorov 后来在博客里承认,这两个月 GitHub 没能维持它向企业客户承诺的「三个九」——99.9% 可用性。
翻开这两个月的故障档案,你会发现一个奇特的规律:每一次事故,看起来都是不同的原因。
2 月 2 日:Azure 计算提供商出问题,GitHub Actions 停摆近 4 小时,Copilot 编码代理、CodeQL、Dependabot 全部受牵连。
2 月 9 日:缓存重写风暴,认证数据库过载。
3 月 5 日:Redis 集群故障,GitHub Actions 95% 的工作流无法在 5 分钟内启动,平均延迟 30 分钟。
3 月 18 日:Webhook 延迟飙升到正常水平的 32 倍。
每一次看起来都是「意外」,每一次的直接原因都不一样。但 Fedorov 的解释把它们串成了同一个故事。他说,这些事故背后有三个共同的结构性原因:「快速的负载增长、服务之间的紧耦合导致局部故障扩散,以及系统缺乏对异常客户端的流量保护能力。」
用工程师的话说,GitHub 的地基,已经开始在新负载的重压下出现裂缝。
而这个「新负载」,有一个具体的名字。
02
每周 2.75 亿次提交
如果你是 GitHub 的基础设施工程师,2025 年和 2026 年的监控仪表盘对比,大概会让你目瞪口呆。
2025 年全年,GitHub 处理了大约 10 亿次代码提交。这个数字本身已经很大了,是 GitHub 平台多年积累的结果。但到了 2026 年,单周的提交量就达到了 2.75 亿次。换算一下——如果按这个速度走完全年,2026 年的总提交量将接近 140 亿次,是 2025 年全年的整整 14 倍。
这不是一条平滑增长的曲线,而是一道陡坡。GitHub 的 Actions 计算量变化更能说明问题:2023 年每周消耗 5 亿分钟,2025 年翻倍到 10 亿,然后在 2026 年初的某一周,直接飙到了 21 亿分钟。
是什么在疯狂提交代码?
不是人类开发者。
GitHub 的数据显示,AI Agent 正在成为这个平台上最活跃的「用户」。Claude Code 单独一个工具,现在贡献了 GitHub 所有公开仓库提交量的 4.5%。每周 260 万次提交,而在 2025 年 9 月底,这个数字还只有 10 万——三个月内增长了 25 倍。
AI Agent 开启的 PR 数量同样在爆炸。2025 年 9 月,AI 生成的 PR 大约是每月 400 万个,到 2026 年 3 月,这个数字跳到了 1700 万——四倍多,半年内。
有一个画面可以帮你理解这意味着什么。
以前,GitHub 的「用户」主要是人类程序员。他们白天工作,晚上睡觉,周末休息,每次提交会思考,会犹豫,手速有上限。系统的负载跟着人类的作息走,有峰谷,可以预测。
现在,越来越多的「用户」是 AI Agent。它们不睡觉,不休息,不犹豫,一个任务可以同时开多个并行的 Agent,每个 Agent 每小时的提交量,轻松超过一个真实工程师一周的工作量。更重要的是,它们不只是在提交代码,还在不断创建新仓库——把仓库当成工作流的「输出产物」,而不是人类的「工作空间」。
GitHub 的基础设施工程师们,面对的已经不是一个流量更大的同类问题,而是一个性质完全不同的问题。
03
Copilot 的钱不够烧了
故障频发只是问题的一面,GitHub 还有另一个更让人头疼的麻烦——算账的时候发现亏了。
Copilot 最初的定价逻辑,建立在一个合理的假设上:用户主要是「辅助补全」式的使用,每次交互是短暂的,计算量可预测。个人版每月 10 美元,商业版每月 19 美元,按座位收费,这个模型在过去几年里运转良好。
然后,Agentic AI 来了。
Agentic 工作流和传统补全是两个物种。标准的代码补全,请求是线性的、可预测的,计算周期短暂。而一个 Agentic 编码 session,可能运行几个小时,同时启动多个并行线程,进行多步推理、自我纠错、跨仓库重构——一个 session 消耗的 token 量,轻松超过一个普通用户一整月的订阅费用。
GitHub 面对的局面是,少数重度 Agentic 用户,正在用几美元的月费消耗相当于几百美元的计算资源。
面对这个局面,GitHub 的反应很直接——先控流,再改价。
今年年初开始,GitHub 对 Copilot 启动了两套并行限流机制:session 时长上限和每周使用量上限,两个维度都按照 token 消耗量乘以模型计算权重来算。与此同时,部分个人 Copilot 套餐暂停了新用户注册。
6 月 1 日,GitHub 完成了更根本的定价改革:Copilot 全面切换按用量计费,用「AI Credits」取代原来的套餐费用,1 个 AI Credit 等于 1 美分,使用量按 token 消耗实时计算。
按座位收费的时代,在 Agentic AI 面前,走到了终点。
这个转变不只是 GitHub 的烦恼。这是整个 AI 工具行业在 2026 年正在经历的一次集体定价危机——当 AI 开始替代人类执行完整的工作流,而不只是「辅助」人类工作时,所有基于「每人每月」的订阅逻辑都会失效。
04
30 倍,不是 10 倍
回到基础设施问题。GitHub 到底准备怎么应对这个「14 倍增长」?
这里有一个细节,能说明问题的严峻程度:
2025 年 12 月下旬,Agentic 工作流突然开始加速。GitHub 的工程师们意识到,10 倍不够。到 2026 年 2 月,也就是那次严重停机之后,GitHub 宣布需要按照今天规模的 30 倍重新设计架构。
不是扩容,是重新设计。
这两个词的区别很大。扩容是把现有的机器变多、把现有的数据库加内存——方向不变,只是规模变大。重新设计意味着,现有的架构假设在 30 倍规模下会系统性失效,必须从底层重新思考服务拆分、数据流、故障隔离的方式。
GitHub 披露的具体方向包括,解耦关键服务以防止级联失败、引入背压机制和流量降级能力、为热点服务部署独立主机、消除单点故障,以及更完善的变更管理——避免「把缓存 TTL 从 12 小时改到 2 小时」这种操作在没有充分压测的情况下直接上线。
值得注意的是,GitHub 并不孤单。
Stripe 已经遇到了 AI Agent 批量创建账户的问题,AWS 正在构建 Agent 专用的身份系统、日志系统和生产控制机制。这些动作不是未雨绸缪,而是监控仪表盘上已经出现了它们不得不解决的信号。
GitHub 只是第一个被打穿的——因为它在 AI 工具链的最核心。
05
代码仓库,正在变成 AI 的排气管
停下来想一想这整件事的性质。
GitHub 是什么?最直观的回答是,它是程序员存代码的地方。但更深一层,它是人类软件协作的基础设施——提交记录是协作的轨迹,PR 是讨论的容器,Issues 是意图的留存,Action 是执行的管道。整套系统,是为人类的工作节奏、思维方式和协作模式设计的。
AI Agent 改变了这一切。
当一个 AI Agent 一天可以提交几百次代码,每一次「提交」背后没有人类的思考和权衡,只有一个任务循环的进度步骤——代码仓库还是「协作的容器」吗?
当 AI 工具自动生成仓库、自动开 PR、自动跑 CI、自动 merge——开发者还是这个流程的主体,还是说他们已经退化成了「审核者」甚至「旁观者」?
GitHub CTO 在描述这次危机时,用了「负载快速增长」这个词。但这个词很可能低估了问题的本质——这不只是量的增长,是使用方式的质变。在旧模型里,GitHub 是「开发者的工具」;在新模型里,GitHub 正在变成「AI 的排气管」,一个自动化工作流的输出管道。
这对 GitHub 意味着什么,其实还没有答案。30 倍扩容能解决流量问题,但解决不了商业模式的再定义,也解决不了「谁是我的真正用户」这个身份问题。
最近有一个颇为意味深长的现象:GitHub 在停机之后开了大量工程博客,非常详细地描述了每一次事故的根本原因,几乎达到了令人意外的透明程度。有人认为这是 GitHub 在主动建立信任,也有人认为这是在以透明度换取开发者社区的耐心——因为接下来的重构期,还会有更多不稳定。
一个平台,在被自己的成功打穿之后,需要把自己拆开重建——而这个过程本身,也是一次能不能撑住的考验。
2 月 9 日那晚,那个等待 PR 合并的工程师,大概最终还是等来了绿灯。但他可能没有意识到,让他等待的那次宕机,不是 GitHub 的一次意外,而是整个软件开发行业进入新时代的一声响动。

最近连微软、Uber 这样的大厂都在算 Token 的账,甚至有公司一个月在这上面烧掉五个亿。当大家都觉得大模型用不起的时候,行业里却有人反着走,把文本、图片、视频三个模型的 API 全部免费开放了。
本期直播,极客公园对话 Agnes AI 创始人 Bruce Yang。我们不聊虚的,直接看现场 Demo 实测,聊聊「Token 免费」背后的商业和技术账本。如果 AI 真的变便宜、变平民化了,中小团队和普通人到底能怎么用起来?





