【技术综述与趋势】大模型进展与趋势总结

摘要:阶段核心判断
当前,人工智能正处于自图形用户界面(GUI)诞生以来最深刻的一轮范式转移期。大模型的角色正在发生根本变化,正由面向内容生成与被动交互的工具,演进为可嵌入业务、可执行任务、可治理运营的生产系统;技术主线也正从“语言智能”进一步延展至“任务智能”、 “环境智能”以及面向物理世界交互的智能形态。2026 年被普遍视为 AI 更广泛进入经济体系与企业核心流程的关键年份,这一阶段的意义已不再局限于模型能力提升本身,而在于 AI 开始成为企业系统能力和生产力结构的一部分。
底层技术层面,行业竞争焦点已由参数规模、单点 benchmark 优势,逐步转向推理能力、工具调用、执行稳定性、成本效率与治理可控性的综合平衡。推理能力成为新一轮模型竞争的核心变量,多模态与 Agent 的结合正在推动模型从“会理解、会生成”迈向“会思考、能执行”;与此同时,世界模型正在为环境建模、复杂规划、具身智能和物理空间交互提供更深层的能力基础,成为下一阶段前沿技术演进的重要方向。
中层产品层面,主战场正从聊天助手快速转向 Agent 系统和智能体平台。模型能力不再主要停留在问答、写作、总结等单点交互,而是开始连接企业知识库、办公套件、开发环境以及 CRM、ERP 等业务系统,直接参与任务分解、工具调用、流程执行与结果交付,推动 AI 从功能插件演变为操作系统级、工作流级的智能平台,并持续重塑人机交互界面与软件产品形态。
上层应用层面,ToB 数字场景已率先进入成熟期,软件研发、知识分析、客服运营、财务法务、文档处理和流程自动化等方向正在加快规模化落地,AI 的价值体现也从局部提效逐渐走向流程重构与组织协同。相比之下,物理世界中的智能化应用正在制造、仓储、巡检等受控场景加速推进,具身智能与相关系统展现出较强潜力,但整体成熟度、稳定性与规模化条件仍明显落后于数字世界。
产业与商业竞争格局也在同步重塑。行业正在进入“超级寡头与百亿美金营收”时代,竞争已从单纯的模型能力比拼,扩展为对底层算力基建、中层开发者生态、上层企业数字员工管理权以及垂直场景入口的全面争夺。闭源阵营仍掌握前沿能力高点,开源与开放权重阵营则在成本、主权部署、行业定制与区域生态等方面快速扩张,市场竞争逻辑正由“单一模型竞争”升级为“多模型 + 工具链 + 平台生态 + 交付能力”的复合竞争。
从企业战略视角看,未来 12—24 个月,真正决定企业竞争力的关键,将越来越取决于其是否能够系统性建立 Agent 架构、评测体系、数据治理、权限安全和组织改造能力。企业关注重点也将从“是否使用 AI”进一步转向“如何将 AI 稳定接入业务、嵌入流程、形成可治理、可评估、可持续优化的生产体系”。这意味着,大模型时代的核心命题,正在从模型选型转向系统能力建设,从技术引入转向业务与组织的整体重构。
底层技术演进
1. 基础模型:关键进展
前沿闭源模型继续拉高上限。 OpenAI 在 2026 年 2 月、3 月连续推出 GPT-5.2(升级)、GPT-5.4,重点强化 coding、computer use、长任务执行与可靠性,说明前沿模型正在向“高执行密度”演化,而不只是更会聊天。
Google 形成“旗舰推理 + 低成本高吞吐”双层体系。 2025 年 11 月 Gemini 3 发布,2026 年 2 月 Gemini 3.1 Pro、3 月 Gemini 3.1 Flash-Lite 相继推出,显示其在高能力与低成本两端同时推进。
Anthropic 延续“代码+Agent”路线。 2025 年 9 月 Sonnet 4.5、10 月 Haiku 4.5、11 月 Opus 4.5 的组合,反映其模型谱系更清晰地分化为高端、主力、轻量三个层级。
开源/开放权重模型明显上台阶。 DeepSeek 在 2025 年 9 月、12 月更新 V3.2-Exp 系列,Mistral 在 2025 年 12 月发布 Large 3,表明开放模型不再只是“便宜替代品”,而是在推理、上下文、部署效率上进入主流方案集。
中国开源力量的“低成本 SOTA”突围:Z.ai 发布 GLM-5 成为开源权重的新 SOTA;阿里开源 Qwen3.5 家族(含 397B 超大规模混合专家模型);MiniMax M2.5/2.7 实现了极高的成本效率比。
上下文长度撞上“内存墙”:尽管模型号称支持千万 token,但在实际推理中受限于 GPU 的 HBM(高带宽内存)瓶颈。业界开始转向“递归语言模型(RLMs)”与流式记忆压缩技术。
模型家族化成为主流。 各家都不再押注单一“万能模型”,而是形成“旗舰模型 + 快速模型 + 专项模型”的产品矩阵,意味着企业侧未来默认是 多模型路由,而不是单模型一统天下。
2. 多模态与 Agent:关键进展
多模态从“能看能听”进入“能操作”阶段。 Google 在 2025 年 10 月推出 Gemini 2.5 Computer Use,OpenAI 在 2026 年 3 月强化 Responses API 的工具能力,表明多模态的重点已从感知走向执行。
Agent 能力从模型内生化。 模型不再依赖大量外部 workflow 拼接,而是越来越多地原生具备规划、调用工具、状态记忆、任务分解和结果整合能力。蜂群并发管理:在原生能力之上,多智能体协同取得突破。例如,月之暗面 Kimi K2.5 在实现了原生图文视频解析后,创新性地支持同时并行管理 100 个 Agent Swarm(智能体蜂群),极大提升了复杂任务的处理通量。
框架工程(Harness Engineering)成为核心: 业界达成共识:Agent = 模型 + 框架。模型的产出上限越来越依赖于执行环境的构建(如沙盒、文件系统访问、记忆库),而不仅是模型智商。
协议与接口标准化加速。 MCP 在这一阶段被更广泛纳入生态,Agent SDK、tool calling、remote MCP 等成为主流厂商共同推进的方向,说明 Agent 正从 demo 走向工程体系。
Coding Agent 成为最早爆发的高价值 Agent 形态。 OpenAI、Anthropic 都把 coding 作为旗舰能力展示场;其本质不是替代程序员,而是把代码生成、调试、测试、重构、文档、审查压缩进统一工作流。
视觉能力跃升:SOTA 模型易主。Nano Banana 2(Gemini 3.1 Flash Image Preview)与 xAI 的 Grok Imagine API 成为视频与图像生成的新标杆。新模型支持极高精度的约束条件(例如 Contact-Sheet 提示词),满足了专业级创作对可控性的严苛要求。
Search 与 Agent 融合。 以 Gemini 3 为代表,将搜索深度整合进产品线。这表明未来的 AI 应用入口不再是传统的“先搜再做”,而是进化为无缝衔接的“搜-想-做”一体化体验。
3. 世界模型与具身智能:关键进展
具身智能重新升温,但重心从“通用梦想”回到“受控任务”。 Google DeepMind 在 2025 年 9 月发布 Gemini Robotics 1.5,核心意义在于把强推理能力更系统地接到机器人动作链路上。
抛弃自回归,转向物理预测:AI 先驱 Yann LeCun 创办的 AMI Labs 斩获 10.3 亿美元种子轮融资(估值 35 亿),基于 JEPA(联合嵌入预测架构)构建理解时空连贯性、重力与遮挡关系的“世界模型”。
生成式世界模型落地工业界:Waymo 宣布接入 DeepMind 的 Genie 3 世界模型,从像素级跃升至“传感器级”,为自动驾驶生成罕见极端情况(如龙卷风)的超逼真 3D 仿真数据。
世界模型开始服务训练与仿真,而非单独作为学术概念。 NVIDIA 在 2026 年 3 月继续推进 Physical AI、GR00T/仿真栈,说明世界模型的商业价值首先体现在数据生成、仿真训练、策略验证。
机器人基础模型进入“软硬一体”阶段。 Figure 在 2026 年 1 月推出 Helix 02,显示行业正在从单点动作控制转向视觉-语言-动作一体化。
物理智能的节奏明显慢于数字智能。 数字 Agent 的闭环只需接 API 和数据;具身智能还要面对硬件可靠性、安全、环境扰动、边缘算力和单位经济性,因而商业化速度不会同步。
4. 训练、推理与治理:关键进展
训练范式继续向后训练时代过渡。 这阶段的差异化越来越来自后训练、推理优化、工具使用、评测工程,而非单纯扩大预训练规模。OpenAI 在 2026 年 3 月推出 GPT-5.4,重点强调 reasoning、coding 与 agentic workflows 的整合;Anthropic 在 2026 年 1 月发布新版 Claude Constitution,说明模型竞争正从“更大参数”转向“更强系统能力”。
推理成本成为核心竞争变量。 各家密集发布轻量模型、Flash/Lite 版本、稀疏注意力方案,说明“谁能更便宜地完成足够好的任务”已和“谁最强”同等重要。Google 于 2026 年 3 月发布 Gemini 3.1 Flash-Lite,Mistral 于 2025 年 12 月推出 Large 3,都体现出“足够强 + 足够便宜”正在成为企业采购的重要标准。
推理时计算被正式产品化。 更长思考、更复杂工具链、更强执行能力,正在把 inference 从“文本生成”升级为“任务计算”。GPT-5.4 已将 reasoning 强度与工具调用效率作为正式产品能力推出,意味着企业未来购买的不只是 token,而是“单位成本下的任务完成率”。
递归自我改进(RSI)初现: AI 自动化研究成为现实。Andrej Karpathy 的“autoresearch”展示了 AI 自主修改 PyTorch 代码并完成训练迭代的能力;Anthropic 内部有 70%-90% 的未来模型代码已由 Claude 自主编写。
治理从原则走向产品化。 OpenAI 在 2025 年 9 月更新 Model Spec,Anthropic 在 2026 年 1 月推进 AI Constitution/Constitutional Classifiers,说明安全与对齐已从论文话题变成产品能力。
监管进入落地期。 欧盟对 GPAI(通用人工智能)模型的透明度与安全要求在 2025 年 8 月开始适用,并在本阶段持续影响全球厂商的文档、评测、合规与交付方式。
中层产品形态
1. 大模型产品:从单一工具到全场景智能体生态
规模跃迁:“超级应用”与基础流量层的形成。AI 已经跨越了“单点应用”阶段,演变为拥有庞大用户基数的全球级操作入口。ChatGPT 的超级入口化:2025 年底数据显示,ChatGPT 周活用户已达 8 亿量级,并正在演变为覆盖旅行、购物等 85+ 品类的超级应用。Google 的流量底座优势:依托搜索和分发壁垒,Google 将 AI 转化为基础流量层。AI Overviews 月活超 20 亿,Gemini App 月活约 6.5 亿,开发者规模超 1300 万。
产品形态蜕变:AI 原生工作台与全能 Agent。统一工作流:ChatGPT、Gemini、Claude 均已升级为集搜索、文档、代码、知识连接器与任务执行于一体的“AI 原生工作台”。Notion 3.0、钉钉等生产力工具也全面升级为智能体平台,能自主执行跨应用复杂任务。开发者桌面级革命:OpenAI 推出原生支持多任务工作树的 Codex App,终结了早期的 VSCode 插件形态;Replit Agent 4 则完成从“代码 IDE”到“通用知识工作 Agent”的蜕变(估值飙升至 90 亿美元),覆盖从应用生成到商业幻灯片制作的全链路。
开源 Agent 首次形成强产品势能。 OpenClaw 于 2025 年 11 月发布后快速爆发,截至 2026 年 3 月其 GitHub star 已超过 33万,成为这一阶段最具标志性的开源 Agent 产品之一。它说明市场对“本地运行、数据主权、多模型可替换、长期在线自治”的需求已经从边缘需求走向主流关注。
交互范式革新:自然语言即生产力。全新的交互范式极大地降低了专业门槛,实现了高质量数字内容的创作民主化。新型搜索与编程范式:“Agentic Search”(边想边搜边做)与“氛围编程”(Ambient Programming)将自然语言直接转化为高阶生产力工具。“一句话”全栈创作:腾讯云 Craft、Lovable Agent、天工 AI Developer 等可将需求直转完整应用;Suno V5(音乐)、VAST Tripo P1(3D 模型)等实现了高质量多模态创意内容的秒级生成。
场景全面渗透:从组织级部署到个人系统调度中心。AI Agent 正在 B 端与 C 端同时进行深度的场景下钻。ToB 企业级部署提速:AI 从创新团队走向全员武装。OpenAI 披露超 100 万企业客户与 700 万工位授权;Anthropic 凭借“高可信、强 coding、强治理”的路线,在高价值市场拿下超 30 万业务客户。ToC 端侧个人助手:小米 miclaw(系统级 Agent)、百度 DuMate(桌面智能体)、面壁 cpmGO(端侧车机助手)的涌现,预示着 AI 正深度植入操作系统,成为个人数字世界的统一调度中心。
商业模式分化:C 端极致变现与 B 端普惠化。在追求技术突破的同时,大模型产品的商业化策略开始走向两极分化。C 端商业化下沉:OpenAI 推出每月 8 美元的“ChatGPT Go”平价订阅套餐,并在免费版中测试广告(Ads),标志着超级应用开始加速流量变现。B 端 API 成本击穿:MiniMax M2.5 等产品以极低价格(约 1 美元/小时)提供 SOTA 级别的代码、搜索和工具调用(Toolcalls)API,极大降低了中小企业接入原生 AI 能力的门槛。
2. Agent 系统:关键产品数据
OpenAI 的主战场已从聊天转向任务系统。 Responses API 在 2026 年 3 月继续强化内置工具与 remote MCP,显示其目标是让开发者直接构建可执行 Agent,而不是只调一个文本模型。
GPT-5.4 把“computer use”推到新高度。 OpenAI 在官方材料中给出较强的执行类 benchmark 表现,说明其已把 Agent 评价指标从“回答是否聪明”切到“任务是否完成”。
Anthropic 将 Agent SDK 升级为核心平台能力。 官方明确其用于构建与运行 Claude Code 等 Agent 循环,这意味着 Agent 已从“实验功能”变成“平台基本盘”。
Google 的 Agent 体系依托大分发场景形成护城河。 Gemini 3、AI Mode、Google Workspace/Cloud 体系结合,使其最有机会把 Agent 直接嵌入办公、搜索、协作与企业知识场景。
颠覆性产品是 coding agent。 它是第一类同时具备高频、强 ROI、低数据采集门槛、便于度量结果的 Agent 产品,因此最有可能先跑出平台级赢家。
企业级Agent平台涌现:腾讯云ADP 3.0、阿里钉钉、JoyAgent(京东开源)等提供从RAG、工作流到多Agent协同的全套企业智能体开发能力。
多智能体协作成为高阶形态:月之暗面K2.5通过Orchestrator机制将任务拆解给数十个子Agent并行处理。a16z报告指出,未来Agent系统将由多个领域专精的微服务化Agent组成。
3. 物理空间产品:关键产品数据
Gemini Robotics 1.5 是“模型进入物理空间”的代表性产品。 它的意义不在消费出货,而在于把前沿多模态推理下沉到机器人动作系统。
Figure Helix 02 标志着 VLA 产品化继续前进。 它代表的不只是机器人新版本,而是“语言理解+视觉感知+动作控制”开始以产品形态交付。
NVIDIA 正把机器人开发栈产品化。 2026 年 3 月继续围绕 GR00T、仿真和 Physical AI 打包,说明物理空间产品的真正入口未必是机器人整机,而可能是开发与训练基础设施。
AI 眼镜/XR 进入第二阶段。 Android XR with Gemini、Meta AI Glasses 等产品表明,物理空间产品正在从“展示型硬件”转向“持续在线的环境计算终端”。
颠覆性产品尚未定型。 现阶段更关键的竞争点,在于谁能率先把物理世界中的感知—决策—动作链路做成稳定的平台化能力。
上层行业应用
1. 数字业务场景
软件研发与 IT 运维:代码生成、测试补全、代码审查、文档生成、故障排查已成为最成熟场景。原因是流程数字化程度高、反馈快、ROI 可量化。AI已深度融入DevOps全流程,从代码生成、审查(多智能体代码审查)、测试到部署。核心价值是将开发平均编码时间缩短40%以上,并降低门槛。
企业知识分析与研究:投研、咨询、法务检索、政策分析、招采研究、尽调摘要等场景快速起量。Agent 的价值不只是“总结”,而是把多源材料归集、比对、生成结论。AI在量化分析(MiroThinker预测金价)、投研(阶跃深研)、法律财税文档处理等专业领域展现出接近专家的水平,成为“能力倍增器”。
客服与销售运营:从对话机器人转向“会查知识库、会调用 CRM、会生成报价/工单/总结”的任务型 Agent,价值显著高于纯聊天机器人。Zoom、Salesforce等将AI Agent集成到会议、CRM中,能自动处理客户查询、生成跟进摘要、安排会议,提升一线员工效率。
财务、法务、合规:合同审查、票据处理、审计抽样、报表解释、内控问答等进入生产试点,关键挑战不是能力不足,而是可追溯、可审计、可授权。
医疗与生命科学的数字工作流:文献整理、临床文书、编码与辅助分析持续提升,但高风险决策仍以“人机协同”而非“全自动”落地。GPT-5助力解决量子复杂性理论难题,AI在数学、天文奥赛夺金,Chai-1模型超越AlphaFold3,DeepRare诊断罕见病,AI正成为科研新范式。
2. 物理业务场景
制造业装配与质检:这是当前最成熟的具身智能场景,原因在于工位固定、流程标准、节拍清晰、收益可量化。 Figure 02 进入 BMW Spartanburg 工厂装配线,截至 2025 年 11 月 19 日已累计装载 9 万多个零部件、支撑 3 万余辆 X3 生产,标志着 humanoid 开始进入真实制造节拍体系。
仓储与物流分拣/搬运:这是商业化推进最快的第二梯队场景,竞争关键已转向单位成本、连续吞吐和异常恢复能力。 Agility Digit 在 GXO 仓储设施完成超 10 万次 tote 搬运,并在 2026 年 2 月 19 日与 Toyota Motor Manufacturing Canada 签署商业协议,说明 humanoid 正从试点走向规模化部署。
工业巡检与现场服务:这一场景的核心价值在于把视觉识别、热成像、知识问答与预测性维护结合起来,替代高风险、低效率人工巡检。典型案例是 ANYbotics 与 GE Vernova 在 2025 年 12 月推进能源设施自主巡检与资产管理系统集成,并已进入 EMEA 地区 live deployments。
零售、餐饮、酒店等服务机器人:该类场景关注度高,但成熟度仍低于制造和仓储,因为开放环境扰动大、交互复杂、容错要求高。 KEENON 于 2025 年 10 月 29 日与香格里拉集团打造智慧酒店,以及 SoftBank Robotics Australia 的清洁机器人进入 11 家 Accor 酒店,表明服务机器人更适合先从配送、清洁等标准化环节切入。
3. 成熟度判断
高成熟:研发 coding、企业知识问答、文档处理、营销内容生产、内部知识助手。
中高成熟:客服运营 Agent、财法合规助手、数据分析助理、销售支持。
中等成熟:跨系统执行型 Agent、深度研究 Agent、行业专属 Copilot。
低到中等成熟:制造/仓储具身智能、工业巡检机器人。
低成熟:开放环境通用机器人、家庭服务机器人、完全自主经营型 Agent。
大模型厂商竞争
竞争焦点转移
从“大模型竞技场排名”转向“生态与平台之争”:OpenAI、谷歌、微软、腾讯、阿里等巨头,竞争重点在于构建吸引开发者和企业的智能体平台、工具链和生态系统。
从“训练算力”转向“推理成本与效率”:由于推理成本百倍下降且需求呈“十亿倍”增长,谁能提供更高性价比、更低延迟的推理服务,谁将赢得大规模应用市场。
从“通用能力”转向“垂直场景深度”:在通用模型能力趋同的背景下,对行业Know-How的理解、高质量垂直数据、以及与现有工作流的无缝集成能力成为差异化关键。
开源与闭源的动态平衡
开源生态空前繁荣:中国力量尤为突出,DeepSeek、阿里、智谱、腾讯等公司开源了诸多顶尖模型(如DeepSeek-V3/R1、Qwen系列、GLM系列)。英伟达也宣布未来五年投入260亿美元构建开源模型生态,旨在绑定开发者。
闭源模型追求“极致体验与前沿突破”:OpenAI的GPT-5系列、Anthropic的Claude在复杂推理、长程任务处理上仍保持领先。闭源模式有利于集中资源进行高风险、高成本的前沿探索(如GPT-5解决IMO难题)。
“混合模式”成为主流策略:巨头普遍采用“闭源旗舰模型+开源基础模型”的组合拳,既保持技术护城河,又通过开源扩大影响、建立生态。微软自研MAI模型并测试DeepSeek等第三方模型,即是此策略体现。
商业与交付模式演进
API按需使用仍是主流,但计费方式细化:从包月订阅转向更灵活的积分制、按token阶梯计费,以适配不同负载(聊天、深度推理、批处理)。
模型即服务(MaaS)向智能体即服务(AaaS)升级:云厂商不仅提供模型API,更提供包含RAG、工作流、多Agent协作的完整智能体开发与托管平台。
私有化部署与端侧AI兴起:出于数据安全、实时性、成本考虑,面壁cpmGO、RockAI Yan模型等纯端侧方案在汽车、IoT、边缘计算场景受到青睐。“训推同步” 概念让端侧设备具备持续学习能力。
核心趋势与潜在影响
核心趋势
趋势一:2026年成为AI经济融合关键拐点。模型能力将普遍在多行业达到专家水平,成本降至可大规模部署的临界点,触发各行业系统性重构。
趋势二:Agent成为核心产品形态,驱动“操作系统级”变革。未来的软件和数字服务将以智能体为核心重新架构,自然语言成为主要交互界面。
趋势三:多模态与世界模型是通往AGI的必经之路。单纯的语言模型已触及天花板,对物理世界的理解与交互(空间智能)是下一阶段突破的关键。
趋势四:推理成本“通缩”引发产业价值链重构。极低的AI服务成本将挤压中间环节利润,迫使企业要么向上掌控核心技术,要么向下深耕场景创造独特价值。
趋势五:开源与闭源共筑“双轨制”生态。开源加速技术民主化与应用创新,闭源牵引前沿探索,两者共同推动产业高速发展。
趋势六:安全、治理与就业结构成为突出社会性挑战。AI能力超越人类专家的领域增多,其可控性、公平性及对劳动力市场的冲击亟待全球协同应对。
潜在影响
1.对企业的启示:
战略层面:应将AI定位为“核心业务重构者”,而非“效率提升工具”。需思考如何用智能体重定义产品、服务乃至商业模式。
执行层面:优先选择1-2个核心业务场景,进行端到端的Agent化改造,积累数据和经验。同时,建立评估“单位成本智能”的体系,理性选择技术路线。
组织层面:培养既懂业务又懂AI的“AI产品经理”和“AI架构师”,打破技术与业务的壁垒。关注AI带来的岗位技能变迁,提前规划人才转型。
2.对产品开发的启示:
设计哲学:从“用户界面(UX)中心”转向“智能体(AX)中心”设计,思考如何让AI成为用户的伙伴,而非被动的工具。
架构设计:采用松耦合、模块化设计,以便快速集成最新的模型和能力。同时警惕“模型的苦涩教训”——避免为短期模型缺陷构建复杂的中间层,这些可能被下一代模型直接淘汰。
数据战略:独有的、高质量的场景数据是未来最关键的护城河。必须系统化地构建数据闭环。
3.对业务的启示:
评估标准:从关注模型参数转向关注其在具体场景中的任务完成度、成本效益比及生态整合能力。
业务方向:重点关注能解决“最后一公里”问题的垂直场景Agent、AI原生应用、以及降低AI使用门槛的工具平台。硬件与AI的结合点(如专用传感器、机器人)存在巨大机会。
风险提示:需警惕技术路线快速迭代的风险、开源模型商业可持续性的风险,以及日益严峻的全球AI治理与地缘政治风险。








