26年5月12日,全球AI资讯约15条:Claude Mythos打爆AI评测天花板、生数科技完成近 20 亿元人民币融资、Vbot维他动力完成Pre-A轮融资等

昨日,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速
AI发展迎来震撼性拐点:Claude Mythos Preview在权威评测机构METR的“长周期任务能力”测试中彻底突破人类评估极限——它能在人类需耗时16小时的复杂工程任务(如理解架构、编写调试全流程)中达成50%成功率,而METR现有最高难度题库(仅5/228题属“16小时+”)已无法继续测量。这意味着:评测工具“失灵”了,就像用1米尺子量摩天楼,只剩“爆表”二字。
更惊人的是趋势:AI能力正以超指数速度增长——不是线性、也不是普通指数,而是“增速本身在加速”。Mythos的表现已提前超越2027年AGI预测曲线,安全公司Palo Alto实测显示:其3周漏洞分析工作量≈顶级团队1年;一次高级攻击链构建压缩至25分钟。https://www.163.com/dy/article/KSLBFIGG0511ABV6.html

1-2. 数学专业,危!菲尔兹奖得主亲测ChatGPT 5.5 Pro,17分钟出论文级成果
菲尔兹奖得主蒂莫西·高尔斯实测ChatGPT 5.5 Pro,仅用17分钟就解决了加法数论中一个长期悬而未决的难题——将整数集合直径上界从指数级(2ᵏ)大幅优化至最优二次级(≈k²);后续更在无人指导、零数学输入下,将高阶求和集直径上界推进至亚指数级。整个过程耗时短、质量高:两轮核心推演共约30分钟。
这不仅挑战了传统博士培养路径,更引发对学术伦理、成果归属与教育本质的反思。高尔斯警示:数学的价值正从“独自证明”转向“人机协作力”与“深度消化能力”。而陶哲轩指出,AI尚无法替代人类独有的“证明消化”——即理解思想根源、审美判断与创造性迁移。简言之:AI能“算出答案”,但人类才真正“懂得为什么”。https://www.qbitai.com/2026/05/415186.html

1-3. 浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互
浙江大学联合腾讯优图实验室推出全新AI角色扮演框架AdaMARP,让AI真正“会导演、懂演戏、知环境”。它突破传统聊天式扮演的局限,首创四通道消息格式,使AI不仅能说话,还能思考、行动、感知环境——比如福尔摩斯看到地毯上的蜡痕,推理出“婚礼蜡烛+左手持烛”,再敲桌施压追问证人,形成逻辑闭环。
框架核心是场景管理器,像一位智能导演,可自主执行5类动作:初始化场景、选择发言者、切换场景、动态添加新角色、结束互动——每步附带可解释理由。为训练,团队构建两大高质量数据集:AdaRPSet(81部文学作品提取+20类主题合成,含49.6万条对话)教AI“演”,AdaSMSet专训“导”。评测工具从叙事连贯性、环境利用、多角色调度等维度全面打分。https://www.qbitai.com/2026/05/415048.html

1-4. 机器人模型R1时刻!不只学动作更学会物理推理,LIBERO 99.9%
LaST-R1 是一款让机器人“先想明白再动手”的新型具身智能模型,由至简动力联合北大、港中文研发。它突破了传统机器人“只会模仿、不擅应变”的局限——过去模型靠大量演示学动作,但换袋子位置或光照就失败;而LaST-R1在动作生成前,先在隐空间中进行物理推理,再生成动作。
其核心是LAPO算法:将环境反馈同时优化“怎么想”和“怎么做”。实验显示,在标准测试集LIBERO上,仅用1条示范轨迹预热,RL后训练即达99.9%平均成功率;在真实机器人任务中,用30条轨迹预热后,成功率从52.5%跃升至93.75%,远超使用100条专家数据的SOTA模型π0.5。更关键的是,它在物体更换、背景/光照变化下表现稳健,说明学到的是可迁移的物理直觉,而非死记硬背。https://www.163.com/dy/article/KSKTMB9P0511ABV6.html

1-5. 全球首个!千问与淘宝全面打通,开启AI购物全新体验
阿里旗下大模型“通义千问”与淘宝正式全面打通,开启国内首个AI购物全链路闭环体验——用户既能在千问App里直接对话AI“逛淘宝”,也能在淘宝App内一键唤起“千问AI购物助手”。只需输入“帮我找百元内高颜值防晒帽”或“对比三款扫地机器人”,AI就能实时检索商品、智能比价、推荐最优选项,并支持一键下单。
更实用的是AI试穿(虚拟穿搭)、AI算优惠(自动叠加满减/红包)、AI帮抢(秒杀热门商品)等功能。据官方介绍,该融合已覆盖淘宝超10亿商品库,响应速度平均低于2秒,下单转化率较传统搜索提升约35%。这是全球首次由超大规模电商平台(淘宝年GMV超万亿元)与顶级自研大模型实现从推荐、决策、支付到履约售后的端到端深度融合。https://www.leiphone.com/category/industrynews/OViAeCCutlvONYDx.html

AI基础设施方面(硬软件、数据)
2-1. Agent评测的下半场:为什么需要一个「活的」Benchmark?
Claw-Eval 和 Claw-Eval-Live 是AI Agent评测领域的两大突破性框架,标志着Agent评估正式迈入“真实可用”下半场。Claw-Eval首次将评测从“只看结果”升级为“全程可审计”——通过执行轨迹、服务端日志和环境快照三重证据链,发现仅凭最终输出会系统性高估模型:44%的安全违规和13%的鲁棒性问题会被漏判。
而Claw-Eval-Live则解决更根本问题:题库“过时”。它不靠专家拍脑袋出题,而是基于ClawHub Top-500热门技能等真实信号,每版发布都是现实工作流的动态切片——87道服务驱动任务覆盖CRM、财务、HR等18个系统,18道本地修复任务则聚焦终端操作。关键发现很清醒:跨系统业务任务平均通过率仅6.8%~12.8%,榜首模型整体通过率也仅59.8%。https://www.163.com/dy/article/KSLBCATQ0511ABV6.html

论文链接:https://arxiv.org/abs/2604.28139
AI人才和资本动态
3-1. 鹿明机器人完成数亿元A1及A2轮融资,产业巨头深度参与,累计融资近10亿元
鹿明机器人近日连续完成A1、A2两轮融资,累计融资近10亿元,由全球工业自动化巨头三菱电机领投,恒生电子、海高集团等产业方跟投。这不仅是资金注入,更是产业信任的“双重加码”——三菱电机早在2025年6月就与鹿明共创柔性质检方案,并已在其中国工厂试用。
鹿明聚焦“产业具身”,不盲目追求通用,而是从工业质检、装配、分拣、搬运等真实场景切入,用“无本体数采”技术快速积累真机数据,驱动自研物理AI引擎Lumos Nexcore迭代升级。该引擎融合世界模型与VLA训练,已支撑多场景落地并形成数据闭环。目前,其机器人已在中远海运、德马科技等企业应用;双足人形LUS系列更在首届世界人形机器人运动会斩获群舞银牌。https://www.leiphone.com/category/industrynews/VqCT68PHdtdfvHXy.html
3-2. 生数科技完成近 20 亿元人民币 B 轮融资,发力通用世界模型
生数科技近日完成近20亿元人民币B轮融资,由阿里云领投,距上一轮6亿元A+轮融资仅隔两个月,凸显市场对其技术路线的高度认可。公司核心成果是2024年发布的国产首个对标Sora的文生视频大模型Vidu,目前已迭代至Q3版本:支持16秒声画同步生成、多镜头运镜、BGM与多语种对话,在国际权威测试Artificial Analysis中位列全球第一。
更关键的是,团队于2025年12月开源世界行动模型Motus——全球首个验证“具身智能缩放定律”的统一架构模型,在多任务行动成功率上比国际主流VLA模型Pi0.5提升约40%。生数科技正以“基座世界模型”为底座,双轨推进:数字世界用世界生成模型,物理世界用世界行动模型,打通“理解—生成—行动”闭环。https://www.leiphone.com/category/industrynews/TrrORc51VW5YFJIg.html
3-3. Vbot维他动力完成Pre-A轮融资,超能机器狗已开启量产交付
Vbot维他动力于5月11日宣布完成近5亿元Pre-A轮融资,创消费级具身智能赛道单笔融资纪录。本轮融资由东方嘉富、华泰紫金、复星锐正联合领投,上汽尚颀资本等新资方加入,凯辉、高瓴、百度风投等老股东持续加码。公司已连获4轮融资,累计构建起从研发到交付的全链条能力。
首款产品“Vbot超能机器狗”已于5月8日启动交付:首批500台量产下线,5月预计交付超1500台用户,6月产能将达2500台以上。线下体验网络快速铺开——上海、北京旗舰店已运营,深圳INNO100、合生汇陶朱新造局已入驻,5–6月还将进驻京东Mall、山姆会员店等全国10余个省市的授权体验点。https://www.leiphone.com/category/industrynews/ou7HTwxDRRtgtXj6.html

3-4. 95后港中文博士融资数百万美金,FitX AI 打造全球首个AI Native家庭娱乐入口
飞拓星驰(FitX AI)是一家来自深圳的AI硬件创业公司,正试图重新定义家庭娱乐的“入口”。当行业还在把大模型塞进屏幕时,FitX选择回归本质:在AI Native时代,客厅还需要游戏机吗?答案是否定的——他们要做的是“客厅里的第一个空间智能Agent”。公司近期完成数百万美元融资,由日初资本领投,预计2027年CES全球首发。
FitX的核心突破在于自研端侧3D动捕引擎:支持全身133个关键点实时捕捉,精度达行业均值4–5倍,关节误差仅2.8cm(H3WB榜单SOTA),响应速度是Google MediaPipe的6倍。更关键的是,它不止于“看得准”,让设备真正懂家庭、懂场景、懂你——孩子玩、年轻人减压、全家运动,一套系统全适配。https://view.inews.qq.com/k/20260511A031PC00

3-5. AI Native教育产品爆火:海外播放破5000 万,20岁天才退学联手前Google专家打造
VideoTutor 是一款爆火海外的AI学习工具,用“短视频+角色扮演”重构了枯燥的解题过程:学生上传数学、物理等题目后,可选择特朗普、动漫角色、猫咪甚至自定义偶像来当“AI老师”,边讲边画、实时追问,生成个性化讲解视频。它不只给答案,而是像真人老师一样——卡壳时换方式讲、追问时即时响应、反复出错就调节奏。
这击中了Z世代的学习习惯:在TikTok刷梗、在Roblox玩身份。背后是硬核技术:自研几何理解模型(读懂图形逻辑)、数学专用动画引擎(保证公式/作图零误差)、持续积累的用户学习记忆。在美国,私人辅导时薪高达46–300美元,而VideoTutor以极低门槛提供接近一对一的互动体验。已获1100万美元种子轮融资,TikTok播放超5000万。https://view.inews.qq.com/k/20260508A02ZN300

AI风险与政策管理
4-1. 谷歌DeepMind聘请芝大教授担任AGI经济总监:审视AI时代人的价值
DeepMind新任AGI经济学总监、芝加哥大学经济学家Alex Imas,曾因担忧AI引发大规模失业与“需求坍缩”而直言“最初反应是害怕”——若白领岗位被快速替代,工资收入萎缩,而富人消费已趋饱和,整体经济可能收缩。但如今他给出一个谨慎乐观的判断:AI不会消灭劳动,而是重塑价值结构。
数据显示,美国农业就业占比从1900年的40%降至如今不足2%,劳动力随之转向制造业、服务业;类似地,AI将大幅压低文本生成、客服、基础编程等可复制劳动的价格,却同步推高关系型劳动的价值——如护理、教育、医疗、心理咨询、咖啡师等需真实互动、信任建立与情境判断的工作。他以星巴克为例:当技术可全自动制咖,新CEO反而回归手写杯名、陶瓷杯与舒适空间。https://m.36kr.com/p/3804070403743488

写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评
