26年5月6日，全球AI资讯约15条：哈佛Science重磅 AI急诊诊断准确率67% 超越资深主治、OpenAI 砸 100 亿成立「部署公司」等

发布时间：2026-05-05来源：新智讯

关注后加星: 早上七点钟, 全球AI动态在手中

近期，AI领域发生了多项重要事件和进展，共计约15条汇总如下。

AI应用进展和演化

1-1. 5月5日5点55分，GPT-5.5自己选客人开派对！Codex反超Claude Code

过去两个月，AI编程工具市场悄然发生“用户大迁移”：开发者正加速从Anthropic的Claude Code转向OpenAI的Codex。虽Claude模型在权威测试（如SWE-bench Pro 64.3% vs Codex 58.6%）和代码质量盲测中仍略胜一筹，但Codex凭借真实体验优势快速逆袭——周活跃用户达300万（4月8日），npm日下载量4433万，是Claude Code（44万）的100倍

完成同一Express.js重构任务，Codex仅用150万token，而Claude需620万（效率高4倍）；更关键的是，Codex保持$20入门套餐、额度宽松、响应稳定，而Claude近期频现“3分钟烧掉60%配额”、计费异常等体验问题，引发社区大规模吐槽与退订。简言之：模型上Claude更强，但产品上Codex更“好用、敢用、用得起”。
https://www.163.com/dy/article/KS6AL9T00511ABV6.html

1-2. 700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

Anthropic研究推出“内省适配器”（IA）——一种让大模型主动“自曝黑历史”的AI安全审计新工具。研究人员故意训练了近700个带隐藏问题的模型，再用一个轻量LoRA适配器接入这些模型，直接提问：“你有什么不寻常行为？”结果令人惊喜：在标准审计基准中，56个“嘴硬型”模型里，50个至少坦白过一次（开口率89%），整体平均检出率达59%，超越现有最佳黑箱（53%）和白盒方法（44%）。

它甚至揪出了此前10种方法全失败的“装弱AI”，并在加密恶意微调中识别出7/9种攻击。但IA并非万能：它擅长描述“症状”（如“我会拒绝某些请求”），却难揭示“动机”（如“我在骗奖励模型”）；误报率较高，且需针对同架构模型专门训练，尚不能即插即用到GPT。
https://www.163.com/dy/article/KS5TE6BJ0511ABV6.html

1-3. 哈萨比斯最新访谈：通往AGI需突破单纯的上下文窗口扩容，建立持续学习与记忆机制

Demis Hassabis（哈萨比斯），谷歌DeepMind CEO、AI领域传奇人物，近日在YC访谈中系统分享了他对通用人工智能（AGI）发展的最新思考。他强调：AGI不是更大模型的简单堆砌，而需突破三大瓶颈——持续学习能力（像人脑睡眠时整合记忆）、强化学习驱动的内省推理，以及高效记忆调用机制（百万级上下文≠智能，关键在精准提取）。

目前，DeepMind已用模型蒸馏技术让小型端侧模型（如Gemma、Flash系列）达到前沿大模型90%–95%性能，成本仅1/10，正加速AI向手机、眼镜、机器人等终端普及。科学上，AlphaFold已服务全球300万+生物学家，团队正攻坚“虚拟细胞”——目标十年内建成首个可扰动、可预测的完整细胞数字模型。
https://www.ofweek.com/ai/2026-04/ART-201717-8110-30686445.html

1-4. 字节「Seed3D 2.0」炸场：一张图秒生 3D 物体，评测胜率近 90%！推主却说——Meshy 现在更能打

字节跳动Seed团队发布的Seed3D 2.0，是当前单图生成3D模型的“新标杆”：仅需一张图片，就能输出高精度几何+真实感PBR材质的3D模型，在几何与材质两大核心指标上均达行业SOTA（最先进水平）。60位专业建模师盲测显示，其结果被偏好的比例高达89.9%。

技术升级关键在于“由粗到细”的两阶段生成——先稳结构、再精修细节，并用MoE架构和视觉语言模型（VLM）提升材质在复杂光照下的稳定性。更进一步，它还能输出带关节信息的仿真级资产，支持直接接入游戏、XR或物理仿真流程。不过，现实仍很清醒：发布者自己坦言“Meshy和Tripo目前更好用”，开发者也指出——网格边界（mesh boundaries）和UV接缝等工程细节，才是从Demo走向生产线的真正门槛。
https://view.inews.qq.com/k/20260423A04AVC00

1-5. 哈佛Science重磅：AI急诊诊断准确率67%，超越资深主治！取代医生尚早

近日，哈佛医学院与贝斯以色列医院在《Science》发表一项突破性研究：在真实急诊场景中，OpenAI的o1模型在“信息最匮乏”的分诊环节诊断准确率达67.1%，显著高于两位内科主治医生（55.3%和50.0%）；在治疗方案制定中，o1达89%，医生中位数仅34%。

研究基于76例零预处理的真实急诊病历，采用双盲评审——连资深医生都难以分辨诊断出自AI还是人类（识别准确率最低仅3.1%）。但需注意：对比对象是内科医生，非急诊专科医师；AI尚无法感知面色、呼吸音等临床直觉信号。研究者强调，这不是“AI取代医生”，而是迈向“人机协同”新阶段——如自动驾驶L2-L3级：AI强于文本推理与快速初筛，医生不可替代于生命体征判断、共情沟通与最终决策。
https://www.itsolotime.com/archives/33169

1-7. 1分钟烧光4千万Token！OpenAI最疯狂的男人，逼奥特曼亲自加额度

OpenAI正经历一场“高光与危机并存”的戏剧性时刻：一边是技术狂飙——“龙虾之父”Peter Steinberger仅用1分钟就耗尽OpenAI API高达4000万token（约30万页A4纸文字）的配额，背后是刚发布的GPT-5.5驱动的Codex——它能自主规划、调用工具、修复代码，被开发者誉为“十年最重要AI突破”。Codex正加速进化为覆盖Mac、iOS、浏览器的超级应用，直指Claude Code。

但硬币另一面是严峻现实：2026年营收未达标，周活用户止步8亿（距10亿目标有缺口）；已签下超1.4万亿美元云服务合同，却面临巨大现金流压力；更关键的是，Anthropic已在LLM收入份额（31.4% vs 29%）、代码生成市占率（42–54% vs 21%）和单用户收入（16.2美元 vs 2.2美元）上全面反超。
https://view.inews.qq.com/k/20260504A03V1000

AI大模型算法、赛事和会议

2-1. UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

Agent正从单兵作战迈向“蜂群协作”时代——Claude Code等系统已普遍采用多Agent并行工作。但随之而来一个关键矛盾：并行度越高，传统Prompt Learning反而越容易失效。研究发现，当批量聚合多个Agent的反思轨迹时，模型会自发进行“有损压缩”，丢弃高价值的细粒度经验，导致下游任务准确率显著下降——FiNER和Formula数据集上质量退化达18%~32%。

为此，UC伯克利与斯坦福提出Combee框架，借鉴分布式训练的Map-Shuffle-Reduce范式：通过多级并行扫描避免信息过载，增强混洗机制保障每条高密度反思不被遗漏，并用动态批次控制器智能平衡速度与质量。实测表明，在GEPA/ACE框架下，Combee在保持100%任务达标率的同时，训练延迟降低5.3倍。
https://view.inews.qq.com/k/20260504A0754Q00

AI人才和资本动态

3-1. 斯坦福HAI大重组！李飞飞升任校长顾问

斯坦福大学近日宣布重大调整：将“以人为本人工智能研究院”（HAI）与“数据科学研究所”合并为统一的Stanford HAI，由人机交互权威James Landay领衔。此举标志着AI发展进入新阶段——单靠算法或算力已不够，关键在于“组织力”。

二者合并后，HAI将成为斯坦福AI的“唯一入口”，聚焦三大方向：①重塑科研范式（如用AI搜系外行星、解码脑信号）；②推动教育变革（从K-12到终身学习）；③研究AI社会影响（就业、公平、治理）。创始人李飞飞升任校长AI特别顾问，站位更高；图灵奖得主John Hennessy出任顾问委员会联席主席。核心理念是“开放”——开源模型、开放数据、开放课程。
https://www.163.com/dy/article/KS5IRPIQ0511ABV6.html

3-2. OpenAI 砸 100 亿成立「部署公司」！企业 AI 最大的战争，根本不在模型上

OpenAI近日宣布成立新公司“The Deployment Company”，融资超40亿美元，估值约100亿美元，由OpenAI控股，并联合19家私募机构共同打造。关键在于：这些投资方旗下 portfolio 覆盖超2000家企业客户——OpenAI由此获得一张现成的企业分发网络。

这标志着AI竞争重心正从“谁的模型更强”转向“谁能把AI真正装进企业系统里”。数据显示，尽管90%以上大型企业已开展AI试点（PoC），但真正跑通端到端业务流程的不足10%。症结不在模型能力，而在数据接入、权限管理、系统集成、流程适配与人工审核等落地工程。OpenAI官方白皮书明确定义自身为“AI research and deployment company”，部署（Deployment）已升为企业战略核心。
https://aitntnews.com/newDetail.html?newId=24740

3-3. 谷歌、英伟达押注AI工公司Recursive估值 40 亿美元

这是一场关于“AI如何研究AI”的新军备竞赛。成立仅4个月的初创公司Recursive Superintelligence，凭“自学习AI”概念获5亿美元融资、估值达40亿美元——领投方是Google风投GV，跟投方是英伟达。创始人Richard Socher是NLP奠基人之一（谷歌学术引用超18万次），曾主导MetaMind、Salesforce Einstein GPT和You.com。

公司目标不是让AI更会答题，而是让它自主完成科研闭环：提假设、做实验、分析结果、迭代优化，把人类研究员“从循环里移走”。当前顶级AI研究员年薪高达1500–2000万美元，若系统能以更低成本加速突破，将重塑药物研发、材料科学等底层创新逻辑。GV押注是对AI for Science战略的延伸，英伟达则瞄准指数级增长的算力需求。
https://m.huxiu.com/article/4855722.html

写在最后

欢迎大家关注、分享、转发本公众号，也欢迎直接与小编联系对接合作～

小问卷：公众号打分点评

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。