a16z 合伙人：大模型吃掉通用任务，创业公司吃掉垂直行业

发布时间：2026-06-02来源：硅星GenAI

最近半年，几乎每一个 AI 创业者都会有一个疑问：OpenAI 和 Anthropic 会不会把我们全吃掉？模型越来越强，Codex 和 Claude Code 越来越像操作系统，那应用层还有得做吗？硅谷顶级风投 a16z 的合伙人 Joe Schmidt 专门写了一篇文章回应这个问题。他的核心判断是：大模型公司的主攻方向（代码生成、写作、图像创作等通用任务）确实是创业公司的禁区，但在这条“黄砖路”之外，还有大量复杂、垂直的问题实验室根本够不到，真正的机会在那些需要让 AI 输出可信、合规、能在具体行业里运转的地方。创业公司可以靠四道护城河守住阵地：行业隐性知识积累成的数据飞轮、跨厂商跨模型选最优解的灵活性、按任务难度分级路由的成本优势、以及帮客户吸收监管复杂性的治理能力。他用一句话概括这场博弈：模型可以替换，但深耕行业的工作系统不行。

以下为编译。

每个人都在问：AI 应用层还有得做吗？

我最近被创始人和求职者反复问同一个问题：AI 应用层还有没有空间？还是说 OpenAI 和 Anthropic 会吃掉一切？

这问题背后有一种特殊的 AI 焦虑症。一些人已经认定，唯一能避免沦为永久底层的位置，要么在大模型实验室里，要么在机器人、硬科技这类“实验室碰不到”的前沿地带。如果每一款软件都注定被吃掉，要么被 Codex 或 Claude 直接吸收掉工作流，要么被下一代模型直接变成多余，那就赶紧跑吧。

听着，我几乎比谁都更 AI 原教旨主义，而且我认为他们只说对了一半。实验室确实会吞掉一大片应用层。但“应用层”不是一个同质化的机会池。正确的思考框架是：你站在黄砖路上，还是奥兹国的其他地方？

大模型公司吃通用任务，创业公司吃垂直行业

“黄砖路”是我们对大模型公司主攻方向的简称，它们在这条路上投入了极其巨大的资源。代码生成、写作、图像创作这类问题之所以天然属于实验室，是因为这些问题随着模型原始能力的提升会直接变好：每一块钱的预训练和后训练支出，都会直接改善产品体验。

如果你在创业，黄砖路是最明显的方向，也是最危险的方向。拿一个高性能模型，接上几个现成的连接器（Google Drive、Slack、Salesforce、Notion、GitHub），再在上面搭一层代理编排，看起来像变魔术一样简单。

问题是，这就是实验室在做的事情。他们当然拥有模型本身，这意味着更好的利润率、更强的控制力，以及对下游所有参与者的定价权。但更重要的是，他们也拥有决定产品架构的权利，产品为哪些问题而设计、用什么方式来解决。他们到目前为止一直在刻意选择“模型加工具调用”的模式，而这恰好是黄砖路上那些水平化、低步数任务所需要的。

退一步说，就算有创业公司能在产品上跑赢 Codex 或 Claude Code，实验室手里还握着巨大的分发渠道和 AI 领域最强的品牌光环。如果你是一家 AI 应用公司，用同样的连接器、同样的模式、没有底层子代理或深度配置、也没有自己的分发能力，那你大概率走在一条通往“哪里都不是”的路上。

但对创业公司来说，这不是全盘悲观的局面。黄砖路之外有巨大的机会，创业公司可以在那里真正拥有客户、解决复杂问题。

这些公司构建的是代理式体验，模型被编织进一张由工具、自动化、集成构成的复杂网络里。这使得它们天然是垂直化的。它们可以做多步、多角色协作的工作，拥有针对特定角色和垂直场景的子代理，而这些都是 Anthropic 和 OpenAI 用水平化平台无法触及的：跨系统收集上下文，然后在不同阶段由多个人审批流转。这些场景往往涉及一个或多个遗留系统，倾向于需要确定性的结果，模糊是不可接受的，而且最终常常绑在某个有价值的业务成果上。

实验室很清楚这些问题的价值：他们之所以在搭建自己的外包配置团队，以及为什么会出现一整个面向大客户的强化学习产业，原因就在这里。

对此最常见的反驳是：历史上押注“模型不会变好”从来都是糟糕的赌注。它们大概会一直变强，最终吃掉这些应用层公司的市场。

实验室当然会继续进步，但我认为奥兹国其余地区的公司有几道护城河可以守住。

第一，数据和学习的飞轮。 很多知识不在任何训练集里，不成文的行业惯例、没有文档记录的标准、只存在于从业者头脑里的隐性知识。这些全都不在公开网页上。再多训练算力也替代不了真正嵌入这些知识所在的业务流。这里有两个叠加的飞轮：跨客户飞轮，当你看到同一种问题的更多变体时涌现的模式；以及单个客户内部飞轮，具体决策背后的原因、未说出口的例外、公司自己不成文的经验法则，这些只有在与系统的真实交互中才会浮现。

即使客户数据不能在客户之间直接使用，应用公司依然可以利用跨客户问题类型的模式识别，来指导未来问题的架构设计。一个让代理跑过一百次法律红线审查、一千次保险核保周期、一万次销售开发代表任务的公司，已经把问题的“形状”内化了，这种积累是下一个新进入者用一套全新代理从头开始无法复制的。

第二，管理模型的变化与复杂性。 实验室已经在做内部路由了，不同请求调不同模型类别、底层用集成。但他们做不到跨厂商路由，不能用竞争对手的模型来评估某个子任务，也不能为一个极窄的环节专门用开源微调。奥兹国公司可以在整个模型市场中为每一个子任务选最优模型，而不是只能用母公司发货的那一个。他们还做了没人想做的工作：每次新模型发布时重新跑评估、针对客户边缘场景重新校准提示词、在不炸掉生产环境的前提下完成部署。实验室不会替客户做这些；他们把下一个模型卖给你，让你自己迁移。奥兹国公司帮客户吸收掉迁移成本。客户得到的是整个市场最优智能的组合，以及每次升级时无感的连续性。

第三，成本优化。 每个查询都跑 Opus 4.7 是通往负毛利的最快路径。最好的奥兹国公司在不同级别的模型之间做路由，最难的任务用前沿模型，大部分用中端模型，在已经取得足够积累的环节用更小的定制或微调模型。有些公司现在更进一步，在这些基础上做自己的后训练，针对客户关心的极窄工作流做优化，服务成本只是前沿 API 调用价格的零头。实验室定的是智能的底价：花 X 元能买到的最低智能。奥兹国公司卖的是反过来的东西：为工作流实际所需的智能水平，找到最低的美元成本。这只有在你精确知道每个子任务需要什么水平时才可能，而实验室在结构上不可能了解所有垂直行业。

第四，治理。 成为客户在某个垂直行业使用 AI 的“控制平面”，这件事本身就有相当大的价值，权限、审计、代理被允许做什么、代理实际做了什么，全部汇聚于一处。这个控制平面由具体场景的护栏构成，而不同行业、不同岗位需要的护栏完全不同。因为奥兹国公司拥有端到端的工具、工作流和数据，他们能在水平工具难以企及的地方提供确定性结果。他们也是替最终客户吸收监管复杂性的实体：法律行业的 FRCP 和律师规则、医疗领域的 HIPAA、金融领域的 SEC 和 FINRA、各州保险法规等等。一个水平化玩家如果不变成一百个不同的垂直行业公司，就不可能真正承接这些责任。CIO 们想要的是一个能在合同里白纸黑字写明“我会为提供的代理承担合规责任”的合作伙伴。

所有这些都指向同一件事：专注。可以是一个垂直行业（保险、法律、会计），也可以是一个做深做透的功能（销售、客服、财务）。无论哪种，都需要一支团队全身心扎进一组客户里，它的工作流、它的边缘场景、它的监管规则。实验室不是为这个设计的。他们必须同时覆盖所有人，这是他们铺出黄砖路的方式。同样的取舍也让他们进不了奥兹国的其余地区，你可以同时无处不在，也可以在一件事上做到极致。二者不能兼得。

销售的例子：复杂业务需要什么

怎么在实践中思考这件事？11x 的 CEO Prabhav Jain 给出了一些来自一线的建议。

从客户真正关心的结果出发。 对 11x 来说，就是帮客户产生更多销售管道。从这个问题出发，追问就变得极其具体：我们希望端到端拥有哪些真正驱动管道的活动？把每个活动分解成任务，哪些是代理式的、哪些不是，哪些需要深度的领域洞察、哪些不需要。实验室当然也会发布工作流，但当流程有很多步骤、输入很脏、状态很难解析、存在各种现实世界约束时，单靠更好的模型是做不到的。这部分工作回到传统软件工程，而实验室在一个专注的应用公司面前没有任何优势。

举个例子，11x 处理的任务包括：基于自定义信号做线索挖掘、线索数据补充、深度账户研究、从 CRM 中抓取上下文、针对不同渠道的消息生成、线索质量判断代理、邮件送达系统。这些不是一次性就能完成的任务，需要深度工程。

奥兹国比喻中最关键的一个洞察是：在任何一个真实工作流里，大约有一半非代理式任务，实验室在这些任务上没有任何优势，他们写模型层下面的确定性软件，并不比你强。另一半代理式任务，仍然需要你针对真正想要的结果去调、去训练、去约束模型。领域知识往往不在通用训练数据里。这些能力是从垂直或功能的土壤里长出来的，在流程的关键时刻被喂给模型。当 11x 的代理在电话上评估一个 inbound 线索时，它需要被训练去理解“什么是针对这个特定行业、这个特定人群的好销售对话”。这是应用公司才能做的工作，而且会不断积累。

更重要的是，业务在演进，这些技能会不断过时，你的能力就是持续演进这些工作流和上下文，这本身就变成了竞争优势。11x 的规模化邮件外拓产品刚起步时，“AI 味”的邮件刚开始进入人们的视野。到今天，人们对哪些是 AI 写的、哪些是人类写的已经有了敏锐的判断力，而这个判断标准每隔几个月就在变。代理必须不断根据市场动态调整，而护城河正是在这里被建出来的。事实上，尽管存在这种变化，11x 的正面回复率在过去几个月上升了 4 倍，已经为客户创造了数亿美元的管道。

在复杂度高的问题上工作。 复杂问题才是真正释放商业价值的地方，否则你只会发现自己搭了一层薄薄的壳。拆解任何一个足够复杂的商业问题，混乱会迅速浮现。举个听起来很简单的 GTM 场景的例子：如果一家公司已经是你的客户，你就不应该再联系这家公司里的任何联系人。但这事一点都不简单。也许 CRM 里关联的是这家公司的一个域名。那些有几十个子公司的集团怎么办？如果 CRM 记录里留的是母公司域名怎么办？如果一个 Salesforce 里过时的匹配字段，把一封冷销售邮件发给了一位现有客户的 CRO？真实世界的数据是脏的，人类尚且搞不定，模型也不会自动跨过这道坎。从混乱中提取秩序，需要的是为问题具体形态而设计的专用代理，而不是一个对着 CRM 指指点点的通用副驾驶。事实上，根据 11x 的数据，他们已经发现自己的数据质量和新鲜度远高于客户，所以他们默认以自己的数据为准。

护栏不只用来防止坏事发生。这是客户付钱给你的原因。 护栏被严重低估了。即使在同一个产品内部，每一个场景都需要自己的护栏。一个受到严格监管的金融服务客户，和一家中等规模的 SaaS 客户，要求的保障完全不同，这些差异一直渗透到代理怎么写、能联系谁、能触碰哪些数据、电话里能说什么、以及每个决策怎么被记录。一套“放之四海皆准”的系统在这种差异面前会崩溃。护栏必须按场景构建、按客户配置、持续审计，而这项工作完全属于应用公司。这就是 11x 有前置部署工程师和技术部署策略师的原因，他们需要为每一个客户的需求做定制。举个例子，他们曾与一家 F1000 企业合作，通过语音向他们的大量中小企业客户做授权外呼。最初几次迭代接听率很低，他们必须快速迭代，学会怎么让这个特定人群在前 10 秒内产生互动。中小企业主的行为和大企业买家、普通消费者完全不同。现在他们一天为这个客户创造的销售机会，比他们整个销售团队针对这个细分市场一个月做的还多。

保险的例子：智能不在模型里，在工作流里

保险是另一个切面，同一个结论。FurtherAI 的 CEO Aman Gour 是这样理解这件事的：

当他们开始在真实保险运营中部署 AI 时，反复听到一种假设：模型是智能的载体，工作流只是围绕它的脚手架。随着合作了越来越多的保险公司，他们越来越确信这个假设是反的。

在保险业，很多智能本身就存在在工作流里。两家保险公司可能走同一条路径处理一份投保申请：接件、审核、报价、承保。但路径只是最容易的部分。真正区分两家公司的是路径内部的全部细节：哪些风险需要上报、哪些损失信号值得关注、两条规则冲突时哪一条优先级更高、什么情况下必须有人签字、哪些外部数据会被调取、最终决策怎么归档。这些逻辑不在一个干净的规则引擎里，而是散落在 SOP、经理审核记录、核保理念、公司特定的风险偏好和多年的操作经验中。其中很大一部分根本没有被写下来，模型无法直接读取。

这就是为什么 FurtherAI 不相信一个每次都从零推理的纯代理，也不相信一个现实一乱就崩溃的硬编码工作流。他们在构建的是代理式工作流，工作流给你可重复性、可审计性和成本控制，代理处理不确定性并在主线走不通时恢复路径，人类留在循环里处理那些需要承担责任的判断。

在第一天，这能自动化人工操作。但假以时日，每一次上报变成信号，每一次例外是一次反馈，每一次人类修正展示了操作手册哪里不完整。慢慢地，工作流不再是脚本，而是变成了保险公司的运营记忆。实验室很难触达到这个层面。他们会持续发布更好的模型和更好的通用代理，他们也理应如此。但他们不会坐在一家保险公司的生产流程里足够久，去理解为什么某一个账户被上报、某一个风险被拒保、某一位核保人推翻风险偏好指引而且他推翻得对。这种理解，只能来自把工作流跑在生产中数千次。你第一天交付的工作流不是护城河。生产使用所产生的反馈循环，随着时间积累，才是。

三个测试判断你的方向，两条路都有赢家

工具与步数测试。 完成这项工作需要多少步？你需要构建的工具复杂到什么程度？对比一下：水平化 AI 搜 Google Drive，一步，操作一个工具，结果错了用户可以重搜；和一份针对律所三年先例的多步法律红线审查，几十步、跨多个工具、输出必须通过合伙人审核且最终可能在法庭上被辩论。两者看起来都像“代理在做工作”，但只有后者需要一个专注团队花几年才能构建的那种深度软件。

系统测试。 你在构建的是客户用来完成工作的“系统”，还是叠加在客户已有系统之上的“工具”？系统拥有端到端的工作流，数据采集、治理、完成事项的记录，是客户描述实际工作如何发生时指向的东西。工具只是在客户已经在运行的工作流上加一层智能。做工具能产生真实收入，而且实验室可以拿走，因为客户并不依赖你作为编排层。高客单价通常是系统的信号，因为系统替代真正的人力岗位并据此定价，但这不是保证。问自己一个问题：如果实验室发布了一款据称与你直接竞争的产品，客户还需要你的产品吗？如果答案是“是”，你在构建系统。如果“否”，你只是工具，即使你的客单价很高。

对冲基金/P&L 测试。 实验室的表现用 benchmark 来评判，奥兹国其余地区的表现用客户的 P&L 来评判。你的客户不关心你的模型在 SWE-Bench 或 MMLU 上拿了多少分，他们只关心你的代理有没有搞定那笔交易、有没有把合同条款审对、有没有签下正确的保单。如果他们死死盯着业务流的结果，而不是一个通用的能力评分，你就在奥兹国其余地区。如果他们买的是通用能力，你卖的东西他们买一张 Claude 或 Codex 的席位就能得到。最好的代理公司需要像对冲基金一样运作，用客户 P&L 衡量的 alpha 来取胜，而不是用 benchmark 分数。

我们会在黄砖路上和路之外同时看到巨大的赢家。

模型公司会继续赢，因为他们拥有模型，也拥有他们设计的水平工具的分发能力。奥兹国其余地区的公司如果能拥有“工作系统”，公司实际执行工作的界面，以及从工作中产生并沉淀下来的数据，就能赢。这些公司拥有数据采集、工作流行动系统和治理层。随着某个垂直领域内更复杂的工作流不断成熟，它们会汇聚成一个客户最终依赖的核心体验。当新一代模型从既有大公司和新兴玩家中不断发布，这些公司就成了整合一切、把智能交付给客户的中间层。模型在底层可以替换，但工作系统不行。

下一代企业软件，会在黄砖路之外被建出来。

点击关注我哦

往期精彩回顾

40 年来第一次：PC 被 NVIDIA 和微软重新发明了｜黄仁勋最新演讲实录

爆了的AI编码工具，联合创始人亲口说工程师还有救

硅谷知名AI投资人Tomasz Tunguz：AI公司赚1块烧12块，旧的商业逻辑正在失效

Ramp首席经济学家：从商业数据来看，SaaS又活了

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。