一周AI丨OpenAI联合创始人加入Anthropic；DeepSeek组建新团队入局AI编程；谷歌推出Gemini 3.5系列模型；Seedance2.0影片亮相戛纳……

发布时间：2026-05-23来源：世界人工智能大会

要闻列表

AI万象

OpenAI联合创始人Andrej Karpathy加入Anthropic

7×24小时不间断作业，FigureAI人形机器人直播分拣包裹

字节Seedance上戛纳了！带着全球首部95分钟AI电影

大平台动作

谷歌推出Gemini 3.5系列模型，Omni视频生成迎来关键突破

Anthropic收购开发工具初创公司Stainless

阿里巴巴发布千问旗舰模型Qwen3.7-Max，登顶最佳国产模型

腾讯推出操作系统层级AI助手“马维斯”

新力量崛起

AI编程神器Cursor发布Composer 2.5，定价仅为Claude十分之一

对标Claude Code！DeepSeek新业务招人了

投融资风向

SpaceX、OpenAI相继冲刺超级IPO

OpenAI联合创始人Andrej Karpathy加入Anthropic

AI万象

当地时间5月19日，OpenAI联合创始人之一、前特斯拉AI负责人安德烈·卡帕西（Andrej Karpathy）宣布加盟人工智能初创公司Anthropic。

在其个人社交平台账号上，安德烈·卡帕西写道，“更新一下个人近况：我已经加入了Anthropic公司。我认为未来几年在大语言模型（LLMs）前沿的工作将尤其具有塑造性和深远影响。我非常高兴能加入这个团队并重返研发工作。我对教育依然怀有深厚的热情，并计划在适当的时候恢复在这方面的工作。”

随后，Anthropic公司预训练团队负责人尼克拉斯·约瑟夫（Nicholas Joseph）转发了安德烈·卡帕西的推文并表示欢迎他的加入。

消息一出，美国人工智能领域多位业内人士在其推文下评论。英伟达具身智能研究负责人范麟熙（Jim Fan）评论道：这比当天举行的Google I/O开发者大会Keynote是“更重磅的新闻”；而Anthropic公司麾下的Claude Code作者鲍里斯·切尔尼（Boris Cherny）等一众开发者圈里的核心人物，则迅速转发推文并表示热烈欢迎。

安德烈·卡帕西是AI领域里一位极具影响力的人物，不论是在自动驾驶还是在大模型的前沿技术开发过程中都曾发挥过关键作用，被媒体称为“卡神”。

公开资料显示，安德烈·卡帕西曾师从AI领域知名教授李飞飞，在斯坦福创立了传奇的CS231n课程。他是OpenAI最早的研究科学家，是公司最初的11名创始成员之一。2015年至2017年专注于深度学习与计算机视觉，2017年出任特斯拉AI总监，2022年从特斯拉离职，于2023年短暂回到OpenAI，约一年后再次离开，2024年创办AI教育公司Eureka Labs。

在特斯拉的五年中，安德烈·卡帕西力排众议，主导Autopilot视觉团队，构建了被称作“数据引擎”的闭环系统，把纯视觉（Vision-Only）自动驾驶神经网络架构推到数百万辆量产车上，成为将理论转化为工程现实的顶级架构师。

安德烈·卡帕西也是大模型时代的底层布道者。他早年提出的“软件2.0（Software 2.0）”概念，即用神经网络权重取代传统手写代码，如今已成为行业共识。而在创办Eureka Labs期间，他引领了面向开发者的“AI原生”教育。

新闻拓展：

深度｜Karpathy为何突然加入Anthropic，只能当Dario的「-2」？

7×24小时不间断作业，FigureAI人形机器人直播分拣包裹

AI万象

当地时间5月20日，Figure创始人布雷特·阿德科克（Brett Adcock）在社交媒体宣布，旗下F.03机器人在直播状态下，已经24小时不间断地连续工作近一周，且在完全依靠自主运行的情况下“没有出现任何故障”。

根据最新数据，F.03机器人自直播开始，到目前为止已经连续运行了181小时6分钟，累计处理了约22.6万个包裹。工作效率方面，F.03平均每分钟分拣接近21件，分拣速度接近人类的30-40件/分钟。

不仅持续时间、分拣效率超预期，F.03在稳定性方面同样可圈可点。

从工作内容来看，直播过程中共有3台F.03机器人轮换进行物流分拣工作，需要在传送带旁完成条形码检测、包裹抓取、方向调整等工序，单台机器人单次工作持续约3-4小时。

值得注意的是，在其电量过低时，F.03会自主请求另一台机器人接替自己，尽量减少停机时间。若其检测到异常，F.03将进行自我诊断、自主前往维护区域并请求替换机器人，即在故障场景下无需人类干预。

而在稳定性之外，人形机器人的量产能力愈发成为行业关注重点。

根据Figure官方披露，旗下BotQ工厂如今每小时即可生产一台F.03机器人，其效率是5个月前的24倍。并且生产线末端的一次合格率已超过80%，电池生产线的一次合格率达到99.3%。

特斯拉公司副总裁陶琳21日发文称，刚刚在加州弗里蒙特工厂，马斯克和ModelS/X签名版的车主们共同见证了这两款车型的最后一次下线，这条产线将很快改造为特斯拉人形机器人的产线，承担人工智能时代里更重要的任务。

就在上个月，特斯拉表示，Optimus第一代生产线设计年产100万台机器人，将取代位于弗里蒙特的Model S和Model X生产线；正在为得州超级工厂准备第二代生产线，设计年产能为1000万台机器人。

新闻拓展：

就去了趟厕所，人类险些输给机器人

字节Seedance上戛纳了！带着全球首部95分钟AI电影

AI万象

5月21日，全球首部95分钟AI长片《Hell Grind》在戛纳首映，反响热烈。提前观看了粗剪片段的好莱坞导演Chuck Russell评价，“你们让我真正共情片中角色，这在AI影视作品里几乎难得一见。”

这部长片的制作团队来自一家美国AI公司Higgsfield，核心视频生成模型用的则是字节跳动旗下的Seedance 2.0。

值得一提的是，除了这部AI长片，还有7部Seedance2.0创作的影片亮相戛纳官方荧幕。这释放出一个清晰的信号：当前Seedance2.0生成的内容可以对国际级展映作品形成实际支撑，AI视频生成技术已具备规模化落地的能力，这正为影像创作带来更多可能性。

Higgsfield这部95分钟的AI电影并不是从零开始，而是对之前做过的一部22分钟的短片《Hell Grind》进行扩展。该短片是Higgsfield首部使用Seedance 2.0 1080P输出的高清长篇，仅用4天就完成，4月中旬已经在YouTube等平台上线。

过去，长篇情感叙事和电影级质感是好莱坞大厂和千万级预算的专属，很多有创意的想法都死在了昂贵的特效报价、复杂的剧组统筹和漫长的制作周期里。现在，以Seedance 2.0为代表的AI工具，正将这些高门槛一一踏平。

“《Hell Grind》由15人团队、用时14天完成，总制作成本不足50万美元，而同等规格的传统影片成本约5000万美元。”Higgsfield联合创始人兼CEO AlexMashrabov说。他认为，《HellGrind》是向整个行业释放的信号，全面展示了AI视频生成技术规模化落地的能力。“通过这部作品，我们向各大制片厂和创作者证明：当下已有成熟技术基建，能以传统制作成本的零头，把最复杂的影视创作构想落地成真。”

吕克·贝松影视工作室SEEN首席执行官GuillaumeLacroix透露，SEEN将依托Seedance2.0打造首部AI动画电影《THEFURIOUSFIVE》，该片将由执导过《这个杀手不太冷》等经典大片的吕克・贝松亲自执导。他表示，传统动画制作周期长达4至5年、投入成本高昂，而采用“真人表演+AI生成”模式，无需专业动捕棚与绿幕设备，仅日常拍摄即可完成动画创作，这是AI赋能影视创作的全新模式。

除院线长片外，触手AI创作平台依托Seedance2.0打造的两部国产短剧《摸金之天机入梦》《饿塔》，成功入围戛纳官方展映，两部作品从剧本开发、视觉设计到特效生成的全流程均为AI制作。这是中国全AI制作短剧首次登上戛纳电影节官方展映单元，也是该单元仅有的两部中国团队作品。

新闻拓展：

戛纳迎来中国AI破局者：一家中国企业如何描绘影视工业的未来？

谷歌推出Gemini 3.5系列模型，Omni视频生成迎来关键突破

大平台动作

5月20日，在谷歌2026 I/O开发者大会上，谷歌宣布推出Gemini 3.5系列模型，以及一款用于模拟物理世界的新型AI模型，旨在在模型开发方面保持领先，同时为其庞大的用户群提供更多AI智能体服务。

Gemini 3.5 Flash，这是该系列的一款轻量级产品。谷歌首席执行官桑达尔·皮查伊表示，Gemini 3.5 Flash在提供尖端能力的同时，其成本仅为同类顶尖模型的一半，甚至有时不到三分之一，同时保持了高智能水平。

皮查伊称Gemini 3.5 Flash“速度极快”。谷歌同时宣布，该型号将成为全球Gemini应用和搜索AI模式的默认模型。

重量级版本Gemini 3.5 Pro，目前仅在内部使用，预计下月才会向更广泛的用户开放。

在AI智能体方面，谷歌推出了Gemini Spark，这是Gemini应用中一款新型通用AI智能体，能够对关联应用中的信息进行跨平台推理。谷歌表示，该工具能够管理用户的数字生活，并代表用户执行操作。Gemini Spark目前处于测试阶段，下周将首先向受信任的测试用户及Google AI Ultra订阅用户开放。

谷歌的AI产品组合还包括Gemini Omni，这是一款用于模拟物理环境的世界模型，主打“任意输入、任意输出”的核心能力，打破传统AI模态割裂局限，实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。

据官方介绍，Gemini Omni依托谷歌成熟的世界模型Genie、图像模型Nano Banana、视频生成模型Veo三大核心技术底座，构建起完整的全模态AI框架。

该模型支持多样化混合输入，用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型，系统可自主解析信息逻辑、模拟真实物理规则，最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。

本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统AI生成工具一次性输出、修改繁琐的痛点，Gemini Omni支持生成过程中的交互式迭代优化。用户完成初始内容生成后，可通过自然语言对话精准调整画面细节，例如替换视频场景、修改物体材质、调整动态特效，且修改过程不会破坏画面原有整体逻辑与物理效果。

新闻拓展：

Gemini 3.5 发布｜Google I/O 2026 全整理

Anthropic收购开发工具初创公司Stainless

大平台动作

当地时间5月18日，Anthropic宣布收购软件开发工具包（SDK）和MCP服务器工具领域初创企业Stainless。据了解，目前双方尚未披露此次交易的财务细节，但有相关消息源透露，此次交易的规模或超过了2.8亿欧元。

公开信息显示，Stainless是由前Stripe工程师Alex Rattray于2022年创立，核心技术在于自动化创建和维护SDK。据悉，其相关技术能够将API规范自动转化为TypeScript、Python、Go、Java、Kotlin等多种语言的SDK，并随着API的变更自动更新代码，从而降低开发者的手动维护成本。此前，Anthropic、OpenAI，以及谷歌等AI实验室均广泛使用该工具。

对于此次交易，Anthropic平台工程主管Katelyn Lesse表示，“自Claude API诞生之初，Stainless就对开发者的使用体验产生了深远的影响…… AI的前沿领域正从响应指令的模型转向能够行动的智能体，而智能体的价值取决于它们能够连接哪些资源。我们很高兴Stainless团队加入Anthropic，共同提升Claude连接数据和工具的能力 ”。

Stainless创始人兼首席执行官Alex Rattray则表示，“Anthropic是最早与我们携手共进的团队之一。过去几年，我们一直在关注开发者们在Claude平台上构建的内容，这使得我们毫不犹豫地决定将我们的团队整合在一起。这样一来，我们的团队就能继续在我们最重视的平台上从事我们热爱的工作”。

作为AI行业此前公认的“基建层”服务商，Stainless的客户名单曾一度涵盖OpenAI、Google、Cloudflare及Runway等Anthropic的直接竞争对手。随着收购协议的达成，Anthropic计划逐步关停Stainless所有的外部托管服务。这意味着OpenAI和Google等巨头将失去这一关键的自动化工具支持，不得不回归成本更高、周期更长的SDK手动维护模式。

业内分析指出，随着大模型竞争进入应用爆发期，SDK的交付速度与稳定性直接决定了开发者接入模型的门槛。Anthropic通过此次收购，不仅成功将Stainless领先的自动化工程能力内化，更通过垂直整合技术栈构筑了坚实的生态壁垒。在AI智能体对API调用需求日益复杂的背景下，掌握这一核心工具链将使Anthropic在与OpenAI的基建赛跑中占据更具主动权的竞争地位。

新闻拓展：

断供OpenAI！Anthropic买下全球1/4开发者都在用的工具商

阿里巴巴发布千问旗舰模型Qwen3.7-Max，登顶最佳国产模型

大平台动作

5月20日，阿里巴巴正式发布全新一代千问旗舰模型Qwen3.7-Max，目前已在千问APP、PC端及网页端同步接入。用户更新千问APP至最新版本后，即可免费体验该模型。根据第三方机构Artificial Analysis公布的最新全球大模型榜单，Qwen3.7-Max以56.6分的成绩位列全球第五、国产第一。

在多项权威评测中，Qwen3.7-Max表现突出：

在编程智能体方面，该模型在SWE-Pro、SWE-Multilingual等测评中领先，并在Terminal Bench 2.0-Terminus得分69.7，超过DeepSeek-v4-pro-Max、Claude-Opus4.6等模型。

在通用智能体方面，Qwen3.7-Max在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异，超越GLM5.1、Kimi-K2.6等模型，创下国产新高，并在Kernel Bench L3上展示了强大的GPU内核优化能力。

在推理能力上，该模型于GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等核心测评中均超越了Claude-Opus4.6及所有国产模型。

在通用能力与多语言方面，Qwen3.7-Max在指令遵循IFBench评测中得分79.1分突破新高，在多语言理解和翻译的WMT24++、MAXIFE评测中处于领先地位。

千问近半年来的模型均指向了同一个主题——Agent，其中Qwen3.5打造原生多模态智能体，Qwen3.6-Plus走向现实世界智能体，Qwen3.7-Max开辟智能体新前沿。每一次新发布都伴随着模型自主规划、工具调用与长程任务执行能力的提升。

此次Qwen3.7-Max被寄予厚望，阿里想将它打造成为下一代全能智能体底座。Qwen3.7-Max在平头哥新AI芯片上成功运行35个小时超长程智能体任务，是这一转变的有力例证。

不仅如此，Qwen3.7-Max还涌现出了跨智能体框架的泛化能力。无需专门训练，就能丝滑支持Claude Code、OpenClaw、Hermes Agent等框架。

新闻拓展：

我用 Qwen 3.7 从 0-1 用 AI 搓了一款武侠 RPG 游戏，绝了！

腾讯推出操作系统层级AI助手“马维斯”

大平台动作

5月20日，腾讯公司公关总监张军宣布，腾讯出品的操作系统层级AI助手“马维斯”正式上工，能把整台电脑变成可对话的对象，开箱即用，Windows端、Mac端、安卓端版本同步上线。

Marvis背后由腾讯应用宝团队打造，内置六个7x24小时在线的AI“牛马”Agent，能归类、解析文档，智能分类识别、处理图片，能修电脑（操作系统）。

与普通聊天式AI助手不同，Marvis更强调对设备本身的理解和操控能力。

同时，Marvis支持端侧隐私模式，用户数据可不上传云端，在提升智能化体验的同时，也兼顾本地文件和隐私数据安全。具体来说，Marvis支持手机连接电脑，实时查看电脑任务执行画面，随时可以接管，电脑上能完成的任务，也可以通过手机远程完成。

Marvis还集合多种本地模型理解文件，支持搜索文件、图片内容以及图片内文字，并可根据人像、内容主题、节日、地点等维度，提供AI图库、AI文档库等能力，帮助用户打造专属个人知识库。

此外，Marvis能深度理解PC设备操作系统和硬件信息，用户一句话就能了解电脑配置、修改电脑设置，比如，一句话关闭Windows广告。

在办公场景中，Marvis可对本地文档、表格等多种类型文件进行深度理解分析，支持文档内容优化、图表生成、文案润色、格式转换等功能。

据介绍，马维斯试图从产品层面解决“Token 消耗”问题，但对硬件有所要求，因为它预装了很多本地模型。根据描述，马维斯可以利用路由机制，自动分配不同重量级的任务给不同的模型，一部分模型在本地，拔网线也可以用。

马维斯业务负责人蔡建涛表示：“我们是一个贯穿于操作系统层级的AI、个性化的AI助手，而不是一个像AI PPT，或者像类似于做一个龙虾（OpenClaw）一样的产品。”

据此前报道，今年3月9日，腾讯旗下全场景AI智能体WorkBuddy正式上线。根据官方描述，WorkBuddy完全兼容OpenClaw的技能，主打办公场景。同月，腾讯董事会主席兼首席执行官马化腾在朋友圈转发了腾讯推出全系“龙虾”产品矩阵的公众号文章，并配文“自研龙虾、本地虾、云端虾、企业虾、云桌面虾，安全隔离虾房、云保安、知识库…… 还有一批产品陆续赶来。”

新闻拓展：

体验完腾讯做的Marvis，我发现距离AI操作系统更近了

AI编程神器Cursor发布Composer 2.5，定价仅为Claude十分之一

新力量崛起

5月19日，Cursor宣布，全新升级的AI编程模型Composer 2.5正式上线。

官方称Composer 2.5是其最强大的AI模型，基于月之暗面的Kimi K2.5模型训练，重点提升长任务稳定性、复杂指令遵循能力和协作体验。

技术上，最关键的改动之一是基于文本反馈的定向RL（强化学习）。当一次rollout可能跨越数十万个token后，仅依赖最终奖励，很难定位到底是哪一步决策出了问题。

Composer 2.5会在具体错误发生的位置插入简短反馈提示，把这个局部上下文下生成的分布当作教师信号，再用蒸馏KL损失拉近学生策略。这样能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。

为了继续提升编码能力，Cursor还把合成任务规模扩大到Composer 2的25倍，并在训练中动态筛选更难任务。其中一种方法是先从真实代码库中删除可测试功能，再要求模型把功能补回去，测试结果直接作为奖励信号。

官方同时承认，大规模合成训练也带来了奖励作弊风险，例如模型逆向类型检查缓存，或反编译Java字节码来重建API，这也说明高强度RL训练必须配合更严密监控。

在训练基础设施上，Composer 2.5使用分片Muon与双网格HSDP。其中，专家权重的正交化是主要开销，团队通过异步all-to-all通信让网络传输与计算重叠，在1T模型上把优化器单步耗时控制在0.2秒。

与此同时，非专家权重与专家权重采用不同的HSDP布局，既减少小规模状态的大范围通信，也让专家优化任务分摊到更多GPU，提高整体训练效率。

价格方面，Composer 2.5标准版为每百万token输入0.5美元，每百万token输出2.5美元。另有一个智能水平相同、但速度更快的fast版本，价格为每百万token输入3美元，每百万token输出15美元。

新闻拓展：

性能直逼Claude Opus 4.7，价格仅为1/10！Cursor甩出史上最强模型Composer 2.5，X平台热度狂飙千万；内部几乎全员弃用旧模型！

对标Claude Code！DeepSeek新业务招人了

新力量崛起

5月19日，DeepSeek资深研究员陈德里在小红书上发了一条招聘贴，证实内部正在组建全新的“Harness”（代码智能体工程）团队，目标直指Anthropic旗下的明星产品Claude Code。

招聘信息显示，DeepSeek目前在北京海淀区开放了Harness产品经理与研发工程师两个岗位。新成员将全程参与“DeepSeek桌面端Agent产品”研发全过程。招聘描述将核心路径定义为“Model + Harness = Agent”，把上下文管理、工具调用、文件读写、终端执行与测试反馈等模型之外的工程动作，全部划归为Harness范畴。

Harness架构是智能体领域的一种工程基础设施参考框架，旨在通过一套系统化的工程方案，将基础大模型的原始智能转化为可靠、可控、可用的智能体能力，以系统性弥补裸模型在记忆、代码执行、工具调用等方面的固有缺陷。这一概念在2025年底至2026年初由Anthropic推动并受到广泛关注，标志着AI工程实践从提示词工程、上下文工程向构建完整智能体运行环境的重要演进。

DeepSeek已持续加码AI编程能力。4月24日，DeepSeek发布旗下最新大语言模型V4的预览版本，称其在智能体任务、知识处理与推理能力方面表现突出，并针对Claude Code等主流智能体工具进行了专项优化。之后，DeepSeek又灰度上线识图模式，弥补了DeepSeek V4-Pro接入Claude Code后，在用于日常开发时，难以识别架构图、设计稿、错误截图的问题。

当前，全球日均token消耗量已超过360万亿。据IDC预测，未来5年将增长3亿倍。其中，AI编程和智能体是消耗主力之一。阿里CEO吴泳铭在最新财报业绩会上透露，从去年11月开始到今年五月份，阿里云大量的API增长都是由AI coding（AI编程）带来的。“智能体可以解决数字化工作的复杂任务，未来两、三年会是增长趋势。”

DeepSeek此次Harness团队的组建，既是技术路线的对标，更是产品化节奏的卡位。凭借模型适配能力和开源社区协同优势，DeepSeek能否后来居上，值得持续观察。

新闻拓展：

融资700亿！DeepSeek Code真要来了，ACM金牌大神崔添翼挂帅

SpaceX、OpenAI相继冲刺超级IPO

投融资风向

美西时间5月21日，SpaceX正式向美国证券交易委员会（SEC）递交S-1招股说明书，计划登陆纳斯达克，股票代码定为SPCX。公司IPO目标估值约1.75万亿美元，募资规模预计在750亿至800亿美元之间，拟于6月12日正式挂牌交易。

若成功，该IPO将超越沙特阿美2019年294亿美元的上市纪录，成为全球资本市场史上最大规模首次公开募股。

同日，OpenAI被曝正准备冲刺IPO，最快将于本周五秘密提交IPO草案，目标最早于2026年9月上市。该公司最新一轮融资后估值为8520亿美元，初步讨论的募资规模不低于600亿美元。

两家公司若相继完成上市，潜在募资总额将超过1300亿美元。

SpaceX的招股书显示，IPO完成后马斯克仍将持有约85%的投票权，维持对公司战略与运营的绝对控制。其个人持股约为51亿股。按1.75万亿美元估值计算，马斯克净资产有望突破1万亿美元，成为人类历史上首位万亿级富豪。

招股书中，SpaceX预估自身可切入的整体潜在市场规模达28.5万亿美元，其中太空业务约3700亿美元，连接业务约1.6万亿美元，AI相关机会约26.5万亿美元，涵盖AI基础设施、订阅服务、广告及企业应用。

OpenAI方面，官方披露其月收入已达20亿美元，ChatGPT周活跃用户超9亿，付费订阅用户逾5000万。但其商业模式仍处验证阶段，算力投入持续处于高位。

为扫清上市障碍，OpenAI过去一年已采取多项措施：完成了向营利性实体的转型，削减了部分高成本边缘业务，并在本周赢得了与马斯克之间旷日持久的法律诉讼。马斯克此前以“窃取慈善机构”为由起诉OpenAI阻止其营利化转型，该诉讼现已告终。

除OpenAI外，Anthropic已于2026年2月完成300亿美元G轮融资，投后估值达3800亿美元。三家头部AI与太空科技公司合计估值近3万亿美元。

此次IPO潮并非孤立事件，而是人工智能、太空探索与算力基础设施三大领域被资本市场同步重估的集中体现。

新闻拓展：

AI巨无霸排队上市，会是美股“最后的狂欢”吗？

信息来源：WAIC综合整理

点击阅读原文查看WAIC 2025精彩！

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。