26年5月12日，全球AI资讯约15条：Claude Mythos打爆AI评测天花板、生数科技完成近 20 亿元人民币融资、Vbot维他动力完成Pre-A轮融资等

发布时间：2026-05-11来源：新智讯

关注后加星: 早上七点钟, 全球AI动态在手中

昨日，AI领域发生了多项重要事件和进展，共计约15条汇总如下。

AI应用进展和演化

1-1. 刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

AI发展迎来震撼性拐点：Claude Mythos Preview在权威评测机构METR的“长周期任务能力”测试中彻底突破人类评估极限——它能在人类需耗时16小时的复杂工程任务（如理解架构、编写调试全流程）中达成50%成功率，而METR现有最高难度题库（仅5/228题属“16小时+”）已无法继续测量。这意味着：评测工具“失灵”了，就像用1米尺子量摩天楼，只剩“爆表”二字。

更惊人的是趋势：AI能力正以超指数速度增长——不是线性、也不是普通指数，而是“增速本身在加速”。Mythos的表现已提前超越2027年AGI预测曲线，安全公司Palo Alto实测显示：其3周漏洞分析工作量≈顶级团队1年；一次高级攻击链构建压缩至25分钟。
https://www.163.com/dy/article/KSLBFIGG0511ABV6.html

1-2. 数学专业，危！菲尔兹奖得主亲测ChatGPT 5.5 Pro，17分钟出论文级成果

菲尔兹奖得主蒂莫西·高尔斯实测ChatGPT 5.5 Pro，仅用17分钟就解决了加法数论中一个长期悬而未决的难题——将整数集合直径上界从指数级（2ᵏ）大幅优化至最优二次级（≈k²）；后续更在无人指导、零数学输入下，将高阶求和集直径上界推进至亚指数级。整个过程耗时短、质量高：两轮核心推演共约30分钟。

这不仅挑战了传统博士培养路径，更引发对学术伦理、成果归属与教育本质的反思。高尔斯警示：数学的价值正从“独自证明”转向“人机协作力”与“深度消化能力”。而陶哲轩指出，AI尚无法替代人类独有的“证明消化”——即理解思想根源、审美判断与创造性迁移。简言之：AI能“算出答案”，但人类才真正“懂得为什么”。
https://www.qbitai.com/2026/05/415186.html

1-3. 浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互

浙江大学联合腾讯优图实验室推出全新AI角色扮演框架AdaMARP，让AI真正“会导演、懂演戏、知环境”。它突破传统聊天式扮演的局限，首创四通道消息格式，使AI不仅能说话，还能思考、行动、感知环境——比如福尔摩斯看到地毯上的蜡痕，推理出“婚礼蜡烛+左手持烛”，再敲桌施压追问证人，形成逻辑闭环。

框架核心是场景管理器，像一位智能导演，可自主执行5类动作：初始化场景、选择发言者、切换场景、动态添加新角色、结束互动——每步附带可解释理由。为训练，团队构建两大高质量数据集：AdaRPSet（81部文学作品提取+20类主题合成，含49.6万条对话）教AI“演”，AdaSMSet专训“导”。评测工具从叙事连贯性、环境利用、多角色调度等维度全面打分。
https://www.qbitai.com/2026/05/415048.html

1-4. 机器人模型R1时刻！不只学动作更学会物理推理，LIBERO 99.9%

LaST-R1 是一款让机器人“先想明白再动手”的新型具身智能模型，由至简动力联合北大、港中文研发。它突破了传统机器人“只会模仿、不擅应变”的局限——过去模型靠大量演示学动作，但换袋子位置或光照就失败；而LaST-R1在动作生成前，先在隐空间中进行物理推理，再生成动作。

其核心是LAPO算法：将环境反馈同时优化“怎么想”和“怎么做”。实验显示，在标准测试集LIBERO上，仅用1条示范轨迹预热，RL后训练即达99.9%平均成功率；在真实机器人任务中，用30条轨迹预热后，成功率从52.5%跃升至93.75%，远超使用100条专家数据的SOTA模型π0.5。更关键的是，它在物体更换、背景/光照变化下表现稳健，说明学到的是可迁移的物理直觉，而非死记硬背。
https://www.163.com/dy/article/KSKTMB9P0511ABV6.html

1-5. 全球首个！千问与淘宝全面打通，开启AI购物全新体验

阿里旗下大模型“通义千问”与淘宝正式全面打通，开启国内首个AI购物全链路闭环体验——用户既能在千问App里直接对话AI“逛淘宝”，也能在淘宝App内一键唤起“千问AI购物助手”。只需输入“帮我找百元内高颜值防晒帽”或“对比三款扫地机器人”，AI就能实时检索商品、智能比价、推荐最优选项，并支持一键下单。

更实用的是AI试穿（虚拟穿搭）、AI算优惠（自动叠加满减/红包）、AI帮抢（秒杀热门商品）等功能。据官方介绍，该融合已覆盖淘宝超10亿商品库，响应速度平均低于2秒，下单转化率较传统搜索提升约35%。这是全球首次由超大规模电商平台（淘宝年GMV超万亿元）与顶级自研大模型实现从推荐、决策、支付到履约售后的端到端深度融合。
https://www.leiphone.com/category/industrynews/OViAeCCutlvONYDx.html

AI基础设施方面（硬软件、数据）

2-1. Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval 和 Claw-Eval-Live 是AI Agent评测领域的两大突破性框架，标志着Agent评估正式迈入“真实可用”下半场。Claw-Eval首次将评测从“只看结果”升级为“全程可审计”——通过执行轨迹、服务端日志和环境快照三重证据链，发现仅凭最终输出会系统性高估模型：44%的安全违规和13%的鲁棒性问题会被漏判。

而Claw-Eval-Live则解决更根本问题：题库“过时”。它不靠专家拍脑袋出题，而是基于ClawHub Top-500热门技能等真实信号，每版发布都是现实工作流的动态切片——87道服务驱动任务覆盖CRM、财务、HR等18个系统，18道本地修复任务则聚焦终端操作。关键发现很清醒：跨系统业务任务平均通过率仅6.8%~12.8%，榜首模型整体通过率也仅59.8%。
https://www.163.com/dy/article/KSLBCATQ0511ABV6.html

论文链接：https://arxiv.org/abs/2604.28139

AI人才和资本动态

3-1. 鹿明机器人完成数亿元A1及A2轮融资，产业巨头深度参与，累计融资近10亿元

鹿明机器人近日连续完成A1、A2两轮融资，累计融资近10亿元，由全球工业自动化巨头三菱电机领投，恒生电子、海高集团等产业方跟投。这不仅是资金注入，更是产业信任的“双重加码”——三菱电机早在2025年6月就与鹿明共创柔性质检方案，并已在其中国工厂试用。

鹿明聚焦“产业具身”，不盲目追求通用，而是从工业质检、装配、分拣、搬运等真实场景切入，用“无本体数采”技术快速积累真机数据，驱动自研物理AI引擎Lumos Nexcore迭代升级。该引擎融合世界模型与VLA训练，已支撑多场景落地并形成数据闭环。目前，其机器人已在中远海运、德马科技等企业应用；双足人形LUS系列更在首届世界人形机器人运动会斩获群舞银牌。
https://www.leiphone.com/category/industrynews/VqCT68PHdtdfvHXy.html

3-2. 生数科技完成近 20 亿元人民币 B 轮融资，发力通用世界模型

生数科技近日完成近20亿元人民币B轮融资，由阿里云领投，距上一轮6亿元A+轮融资仅隔两个月，凸显市场对其技术路线的高度认可。公司核心成果是2024年发布的国产首个对标Sora的文生视频大模型Vidu，目前已迭代至Q3版本：支持16秒声画同步生成、多镜头运镜、BGM与多语种对话，在国际权威测试Artificial Analysis中位列全球第一。

更关键的是，团队于2025年12月开源世界行动模型Motus——全球首个验证“具身智能缩放定律”的统一架构模型，在多任务行动成功率上比国际主流VLA模型Pi0.5提升约40%。生数科技正以“基座世界模型”为底座，双轨推进：数字世界用世界生成模型，物理世界用世界行动模型，打通“理解—生成—行动”闭环。
https://www.leiphone.com/category/industrynews/TrrORc51VW5YFJIg.html

3-3. Vbot维他动力完成Pre-A轮融资，超能机器狗已开启量产交付

Vbot维他动力于5月11日宣布完成近5亿元Pre-A轮融资，创消费级具身智能赛道单笔融资纪录。本轮融资由东方嘉富、华泰紫金、复星锐正联合领投，上汽尚颀资本等新资方加入，凯辉、高瓴、百度风投等老股东持续加码。公司已连获4轮融资，累计构建起从研发到交付的全链条能力。

首款产品“Vbot超能机器狗”已于5月8日启动交付：首批500台量产下线，5月预计交付超1500台用户，6月产能将达2500台以上。线下体验网络快速铺开——上海、北京旗舰店已运营，深圳INNO100、合生汇陶朱新造局已入驻，5–6月还将进驻京东Mall、山姆会员店等全国10余个省市的授权体验点。
https://www.leiphone.com/category/industrynews/ou7HTwxDRRtgtXj6.html

3-4. 95后港中文博士融资数百万美金，FitX AI 打造全球首个AI Native家庭娱乐入口

飞拓星驰（FitX AI）是一家来自深圳的AI硬件创业公司，正试图重新定义家庭娱乐的“入口”。当行业还在把大模型塞进屏幕时，FitX选择回归本质：在AI Native时代，客厅还需要游戏机吗？答案是否定的——他们要做的是“客厅里的第一个空间智能Agent”。公司近期完成数百万美元融资，由日初资本领投，预计2027年CES全球首发。

FitX的核心突破在于自研端侧3D动捕引擎：支持全身133个关键点实时捕捉，精度达行业均值4–5倍，关节误差仅2.8cm（H3WB榜单SOTA），响应速度是Google MediaPipe的6倍。更关键的是，它不止于“看得准”，让设备真正懂家庭、懂场景、懂你——孩子玩、年轻人减压、全家运动，一套系统全适配。
https://view.inews.qq.com/k/20260511A031PC00

3-5. AI Native教育产品爆火：海外播放破5000 万，20岁天才退学联手前Google专家打造

VideoTutor 是一款爆火海外的AI学习工具，用“短视频+角色扮演”重构了枯燥的解题过程：学生上传数学、物理等题目后，可选择特朗普、动漫角色、猫咪甚至自定义偶像来当“AI老师”，边讲边画、实时追问，生成个性化讲解视频。它不只给答案，而是像真人老师一样——卡壳时换方式讲、追问时即时响应、反复出错就调节奏。

这击中了Z世代的学习习惯：在TikTok刷梗、在Roblox玩身份。背后是硬核技术：自研几何理解模型（读懂图形逻辑）、数学专用动画引擎（保证公式/作图零误差）、持续积累的用户学习记忆。在美国，私人辅导时薪高达46–300美元，而VideoTutor以极低门槛提供接近一对一的互动体验。已获1100万美元种子轮融资，TikTok播放超5000万。
https://view.inews.qq.com/k/20260508A02ZN300

AI风险与政策管理

4-1. 谷歌DeepMind聘请芝大教授担任AGI经济总监：审视AI时代人的价值

DeepMind新任AGI经济学总监、芝加哥大学经济学家Alex Imas，曾因担忧AI引发大规模失业与“需求坍缩”而直言“最初反应是害怕”——若白领岗位被快速替代，工资收入萎缩，而富人消费已趋饱和，整体经济可能收缩。但如今他给出一个谨慎乐观的判断：AI不会消灭劳动，而是重塑价值结构。

数据显示，美国农业就业占比从1900年的40%降至如今不足2%，劳动力随之转向制造业、服务业；类似地，AI将大幅压低文本生成、客服、基础编程等可复制劳动的价格，却同步推高关系型劳动的价值——如护理、教育、医疗、心理咨询、咖啡师等需真实互动、信任建立与情境判断的工作。他以星巴克为例：当技术可全自动制咖，新CEO反而回归手写杯名、陶瓷杯与舒适空间。
https://m.36kr.com/p/3804070403743488

写在最后

欢迎大家关注、分享、转发本公众号，也欢迎直接与小编联系对接合作～

小问卷：公众号打分点评

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。