a16z 合伙人:大模型吃掉通用任务,创业公司吃掉垂直行业

最近半年,几乎每一个 AI 创业者都会有一个疑问:OpenAI 和 Anthropic 会不会把我们全吃掉?模型越来越强,Codex 和 Claude Code 越来越像操作系统,那应用层还有得做吗?硅谷顶级风投 a16z 的合伙人 Joe Schmidt 专门写了一篇文章回应这个问题。他的核心判断是:大模型公司的主攻方向(代码生成、写作、图像创作等通用任务)确实是创业公司的禁区,但在这条“黄砖路”之外,还有大量复杂、垂直的问题实验室根本够不到,真正的机会在那些需要让 AI 输出可信、合规、能在具体行业里运转的地方。创业公司可以靠四道护城河守住阵地:行业隐性知识积累成的数据飞轮、跨厂商跨模型选最优解的灵活性、按任务难度分级路由的成本优势、以及帮客户吸收监管复杂性的治理能力。他用一句话概括这场博弈:模型可以替换,但深耕行业的工作系统不行。
以下为编译。

每个人都在问:AI 应用层还有得做吗?
我最近被创始人和求职者反复问同一个问题:AI 应用层还有没有空间?还是说 OpenAI 和 Anthropic 会吃掉一切?
这问题背后有一种特殊的 AI 焦虑症。一些人已经认定,唯一能避免沦为永久底层的位置,要么在大模型实验室里,要么在机器人、硬科技这类“实验室碰不到”的前沿地带。如果每一款软件都注定被吃掉,要么被 Codex 或 Claude 直接吸收掉工作流,要么被下一代模型直接变成多余,那就赶紧跑吧。
听着,我几乎比谁都更 AI 原教旨主义,而且我认为他们只说对了一半。实验室确实会吞掉一大片应用层。但“应用层”不是一个同质化的机会池。正确的思考框架是:你站在黄砖路上,还是奥兹国的其他地方?
大模型公司吃通用任务,创业公司吃垂直行业
“黄砖路”是我们对大模型公司主攻方向的简称,它们在这条路上投入了极其巨大的资源。代码生成、写作、图像创作这类问题之所以天然属于实验室,是因为这些问题随着模型原始能力的提升会直接变好:每一块钱的预训练和后训练支出,都会直接改善产品体验。
如果你在创业,黄砖路是最明显的方向,也是最危险的方向。拿一个高性能模型,接上几个现成的连接器(Google Drive、Slack、Salesforce、Notion、GitHub),再在上面搭一层代理编排,看起来像变魔术一样简单。
问题是,这就是实验室在做的事情。他们当然拥有模型本身,这意味着更好的利润率、更强的控制力,以及对下游所有参与者的定价权。但更重要的是,他们也拥有决定产品架构的权利,产品为哪些问题而设计、用什么方式来解决。他们到目前为止一直在刻意选择“模型加工具调用”的模式,而这恰好是黄砖路上那些水平化、低步数任务所需要的。

退一步说,就算有创业公司能在产品上跑赢 Codex 或 Claude Code,实验室手里还握着巨大的分发渠道和 AI 领域最强的品牌光环。如果你是一家 AI 应用公司,用同样的连接器、同样的模式、没有底层子代理或深度配置、也没有自己的分发能力,那你大概率走在一条通往“哪里都不是”的路上。
但对创业公司来说,这不是全盘悲观的局面。黄砖路之外有巨大的机会,创业公司可以在那里真正拥有客户、解决复杂问题。
这些公司构建的是代理式体验,模型被编织进一张由工具、自动化、集成构成的复杂网络里。这使得它们天然是垂直化的。它们可以做多步、多角色协作的工作,拥有针对特定角色和垂直场景的子代理,而这些都是 Anthropic 和 OpenAI 用水平化平台无法触及的:跨系统收集上下文,然后在不同阶段由多个人审批流转。这些场景往往涉及一个或多个遗留系统,倾向于需要确定性的结果,模糊是不可接受的,而且最终常常绑在某个有价值的业务成果上。
实验室很清楚这些问题的价值:他们之所以在搭建自己的外包配置团队,以及为什么会出现一整个面向大客户的强化学习产业,原因就在这里。
对此最常见的反驳是:历史上押注“模型不会变好”从来都是糟糕的赌注。它们大概会一直变强,最终吃掉这些应用层公司的市场。
实验室当然会继续进步,但我认为奥兹国其余地区的公司有几道护城河可以守住。
第一,数据和学习的飞轮。 很多知识不在任何训练集里,不成文的行业惯例、没有文档记录的标准、只存在于从业者头脑里的隐性知识。这些全都不在公开网页上。再多训练算力也替代不了真正嵌入这些知识所在的业务流。这里有两个叠加的飞轮:跨客户飞轮,当你看到同一种问题的更多变体时涌现的模式;以及单个客户内部飞轮,具体决策背后的原因、未说出口的例外、公司自己不成文的经验法则,这些只有在与系统的真实交互中才会浮现。
即使客户数据不能在客户之间直接使用,应用公司依然可以利用跨客户问题类型的模式识别,来指导未来问题的架构设计。一个让代理跑过一百次法律红线审查、一千次保险核保周期、一万次销售开发代表任务的公司,已经把问题的“形状”内化了,这种积累是下一个新进入者用一套全新代理从头开始无法复制的。
第二,管理模型的变化与复杂性。 实验室已经在做内部路由了,不同请求调不同模型类别、底层用集成。但他们做不到跨厂商路由,不能用竞争对手的模型来评估某个子任务,也不能为一个极窄的环节专门用开源微调。奥兹国公司可以在整个模型市场中为每一个子任务选最优模型,而不是只能用母公司发货的那一个。他们还做了没人想做的工作:每次新模型发布时重新跑评估、针对客户边缘场景重新校准提示词、在不炸掉生产环境的前提下完成部署。实验室不会替客户做这些;他们把下一个模型卖给你,让你自己迁移。奥兹国公司帮客户吸收掉迁移成本。客户得到的是整个市场最优智能的组合,以及每次升级时无感的连续性。
第三,成本优化。 每个查询都跑 Opus 4.7 是通往负毛利的最快路径。最好的奥兹国公司在不同级别的模型之间做路由,最难的任务用前沿模型,大部分用中端模型,在已经取得足够积累的环节用更小的定制或微调模型。有些公司现在更进一步,在这些基础上做自己的后训练,针对客户关心的极窄工作流做优化,服务成本只是前沿 API 调用价格的零头。实验室定的是智能的底价:花 X 元能买到的最低智能。奥兹国公司卖的是反过来的东西:为工作流实际所需的智能水平,找到最低的美元成本。这只有在你精确知道每个子任务需要什么水平时才可能,而实验室在结构上不可能了解所有垂直行业。
第四,治理。 成为客户在某个垂直行业使用 AI 的“控制平面”,这件事本身就有相当大的价值,权限、审计、代理被允许做什么、代理实际做了什么,全部汇聚于一处。这个控制平面由具体场景的护栏构成,而不同行业、不同岗位需要的护栏完全不同。因为奥兹国公司拥有端到端的工具、工作流和数据,他们能在水平工具难以企及的地方提供确定性结果。他们也是替最终客户吸收监管复杂性的实体:法律行业的 FRCP 和律师规则、医疗领域的 HIPAA、金融领域的 SEC 和 FINRA、各州保险法规等等。一个水平化玩家如果不变成一百个不同的垂直行业公司,就不可能真正承接这些责任。CIO 们想要的是一个能在合同里白纸黑字写明“我会为提供的代理承担合规责任”的合作伙伴。
所有这些都指向同一件事:专注。可以是一个垂直行业(保险、法律、会计),也可以是一个做深做透的功能(销售、客服、财务)。无论哪种,都需要一支团队全身心扎进一组客户里,它的工作流、它的边缘场景、它的监管规则。实验室不是为这个设计的。他们必须同时覆盖所有人,这是他们铺出黄砖路的方式。同样的取舍也让他们进不了奥兹国的其余地区,你可以同时无处不在,也可以在一件事上做到极致。二者不能兼得。
销售的例子:复杂业务需要什么
怎么在实践中思考这件事?11x 的 CEO Prabhav Jain 给出了一些来自一线的建议。
从客户真正关心的结果出发。 对 11x 来说,就是帮客户产生更多销售管道。从这个问题出发,追问就变得极其具体:我们希望端到端拥有哪些真正驱动管道的活动?把每个活动分解成任务,哪些是代理式的、哪些不是,哪些需要深度的领域洞察、哪些不需要。实验室当然也会发布工作流,但当流程有很多步骤、输入很脏、状态很难解析、存在各种现实世界约束时,单靠更好的模型是做不到的。这部分工作回到传统软件工程,而实验室在一个专注的应用公司面前没有任何优势。
举个例子,11x 处理的任务包括:基于自定义信号做线索挖掘、线索数据补充、深度账户研究、从 CRM 中抓取上下文、针对不同渠道的消息生成、线索质量判断代理、邮件送达系统。这些不是一次性就能完成的任务,需要深度工程。
奥兹国比喻中最关键的一个洞察是:在任何一个真实工作流里,大约有一半非代理式任务,实验室在这些任务上没有任何优势,他们写模型层下面的确定性软件,并不比你强。另一半代理式任务,仍然需要你针对真正想要的结果去调、去训练、去约束模型。领域知识往往不在通用训练数据里。这些能力是从垂直或功能的土壤里长出来的,在流程的关键时刻被喂给模型。当 11x 的代理在电话上评估一个 inbound 线索时,它需要被训练去理解“什么是针对这个特定行业、这个特定人群的好销售对话”。这是应用公司才能做的工作,而且会不断积累。
更重要的是,业务在演进,这些技能会不断过时,你的能力就是持续演进这些工作流和上下文,这本身就变成了竞争优势。11x 的规模化邮件外拓产品刚起步时,“AI 味”的邮件刚开始进入人们的视野。到今天,人们对哪些是 AI 写的、哪些是人类写的已经有了敏锐的判断力,而这个判断标准每隔几个月就在变。代理必须不断根据市场动态调整,而护城河正是在这里被建出来的。事实上,尽管存在这种变化,11x 的正面回复率在过去几个月上升了 4 倍,已经为客户创造了数亿美元的管道。
在复杂度高的问题上工作。 复杂问题才是真正释放商业价值的地方,否则你只会发现自己搭了一层薄薄的壳。拆解任何一个足够复杂的商业问题,混乱会迅速浮现。举个听起来很简单的 GTM 场景的例子:如果一家公司已经是你的客户,你就不应该再联系这家公司里的任何联系人。但这事一点都不简单。也许 CRM 里关联的是这家公司的一个域名。那些有几十个子公司的集团怎么办?如果 CRM 记录里留的是母公司域名怎么办?如果一个 Salesforce 里过时的匹配字段,把一封冷销售邮件发给了一位现有客户的 CRO?真实世界的数据是脏的,人类尚且搞不定,模型也不会自动跨过这道坎。从混乱中提取秩序,需要的是为问题具体形态而设计的专用代理,而不是一个对着 CRM 指指点点的通用副驾驶。事实上,根据 11x 的数据,他们已经发现自己的数据质量和新鲜度远高于客户,所以他们默认以自己的数据为准。
护栏不只用来防止坏事发生。这是客户付钱给你的原因。 护栏被严重低估了。即使在同一个产品内部,每一个场景都需要自己的护栏。一个受到严格监管的金融服务客户,和一家中等规模的 SaaS 客户,要求的保障完全不同,这些差异一直渗透到代理怎么写、能联系谁、能触碰哪些数据、电话里能说什么、以及每个决策怎么被记录。一套“放之四海皆准”的系统在这种差异面前会崩溃。护栏必须按场景构建、按客户配置、持续审计,而这项工作完全属于应用公司。这就是 11x 有前置部署工程师和技术部署策略师的原因,他们需要为每一个客户的需求做定制。举个例子,他们曾与一家 F1000 企业合作,通过语音向他们的大量中小企业客户做授权外呼。最初几次迭代接听率很低,他们必须快速迭代,学会怎么让这个特定人群在前 10 秒内产生互动。中小企业主的行为和大企业买家、普通消费者完全不同。现在他们一天为这个客户创造的销售机会,比他们整个销售团队针对这个细分市场一个月做的还多。
保险的例子:智能不在模型里,在工作流里
保险是另一个切面,同一个结论。FurtherAI 的 CEO Aman Gour 是这样理解这件事的:
当他们开始在真实保险运营中部署 AI 时,反复听到一种假设:模型是智能的载体,工作流只是围绕它的脚手架。随着合作了越来越多的保险公司,他们越来越确信这个假设是反的。
在保险业,很多智能本身就存在在工作流里。两家保险公司可能走同一条路径处理一份投保申请:接件、审核、报价、承保。但路径只是最容易的部分。真正区分两家公司的是路径内部的全部细节:哪些风险需要上报、哪些损失信号值得关注、两条规则冲突时哪一条优先级更高、什么情况下必须有人签字、哪些外部数据会被调取、最终决策怎么归档。这些逻辑不在一个干净的规则引擎里,而是散落在 SOP、经理审核记录、核保理念、公司特定的风险偏好和多年的操作经验中。其中很大一部分根本没有被写下来,模型无法直接读取。
这就是为什么 FurtherAI 不相信一个每次都从零推理的纯代理,也不相信一个现实一乱就崩溃的硬编码工作流。他们在构建的是代理式工作流,工作流给你可重复性、可审计性和成本控制,代理处理不确定性并在主线走不通时恢复路径,人类留在循环里处理那些需要承担责任的判断。
在第一天,这能自动化人工操作。但假以时日,每一次上报变成信号,每一次例外是一次反馈,每一次人类修正展示了操作手册哪里不完整。慢慢地,工作流不再是脚本,而是变成了保险公司的运营记忆。实验室很难触达到这个层面。他们会持续发布更好的模型和更好的通用代理,他们也理应如此。但他们不会坐在一家保险公司的生产流程里足够久,去理解为什么某一个账户被上报、某一个风险被拒保、某一位核保人推翻风险偏好指引而且他推翻得对。这种理解,只能来自把工作流跑在生产中数千次。你第一天交付的工作流不是护城河。生产使用所产生的反馈循环,随着时间积累,才是。
三个测试判断你的方向,两条路都有赢家

工具与步数测试。 完成这项工作需要多少步?你需要构建的工具复杂到什么程度?对比一下:水平化 AI 搜 Google Drive,一步,操作一个工具,结果错了用户可以重搜;和一份针对律所三年先例的多步法律红线审查,几十步、跨多个工具、输出必须通过合伙人审核且最终可能在法庭上被辩论。两者看起来都像“代理在做工作”,但只有后者需要一个专注团队花几年才能构建的那种深度软件。
系统测试。 你在构建的是客户用来完成工作的“系统”,还是叠加在客户已有系统之上的“工具”?系统拥有端到端的工作流,数据采集、治理、完成事项的记录,是客户描述实际工作如何发生时指向的东西。工具只是在客户已经在运行的工作流上加一层智能。做工具能产生真实收入,而且实验室可以拿走,因为客户并不依赖你作为编排层。高客单价通常是系统的信号,因为系统替代真正的人力岗位并据此定价,但这不是保证。问自己一个问题:如果实验室发布了一款据称与你直接竞争的产品,客户还需要你的产品吗?如果答案是“是”,你在构建系统。如果“否”,你只是工具,即使你的客单价很高。
对冲基金/P&L 测试。 实验室的表现用 benchmark 来评判,奥兹国其余地区的表现用客户的 P&L 来评判。你的客户不关心你的模型在 SWE-Bench 或 MMLU 上拿了多少分,他们只关心你的代理有没有搞定那笔交易、有没有把合同条款审对、有没有签下正确的保单。如果他们死死盯着业务流的结果,而不是一个通用的能力评分,你就在奥兹国其余地区。如果他们买的是通用能力,你卖的东西他们买一张 Claude 或 Codex 的席位就能得到。最好的代理公司需要像对冲基金一样运作,用客户 P&L 衡量的 alpha 来取胜,而不是用 benchmark 分数。
我们会在黄砖路上和路之外同时看到巨大的赢家。
模型公司会继续赢,因为他们拥有模型,也拥有他们设计的水平工具的分发能力。奥兹国其余地区的公司如果能拥有“工作系统”,公司实际执行工作的界面,以及从工作中产生并沉淀下来的数据,就能赢。这些公司拥有数据采集、工作流行动系统和治理层。随着某个垂直领域内更复杂的工作流不断成熟,它们会汇聚成一个客户最终依赖的核心体验。当新一代模型从既有大公司和新兴玩家中不断发布,这些公司就成了整合一切、把智能交付给客户的中间层。模型在底层可以替换,但工作系统不行。
下一代企业软件,会在黄砖路之外被建出来。


