26年5月6日,全球AI资讯约15条:哈佛Science重磅 AI急诊诊断准确率67% 超越资深主治、OpenAI 砸 100 亿成立「部署公司」等

近期,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 5月5日5点55分,GPT-5.5自己选客人开派对!Codex反超Claude Code
过去两个月,AI编程工具市场悄然发生“用户大迁移”:开发者正加速从Anthropic的Claude Code转向OpenAI的Codex。虽Claude模型在权威测试(如SWE-bench Pro 64.3% vs Codex 58.6%)和代码质量盲测中仍略胜一筹,但Codex凭借真实体验优势快速逆袭——周活跃用户达300万(4月8日),npm日下载量4433万,是Claude Code(44万)的100倍
完成同一Express.js重构任务,Codex仅用150万token,而Claude需620万(效率高4倍);更关键的是,Codex保持$20入门套餐、额度宽松、响应稳定,而Claude近期频现“3分钟烧掉60%配额”、计费异常等体验问题,引发社区大规模吐槽与退订。简言之:模型上Claude更强,但产品上Codex更“好用、敢用、用得起”。https://www.163.com/dy/article/KS6AL9T00511ABV6.html

1-2. 700多个「坏模型」喂出AI测谎仪?Anthropic审计神器让AI自曝黑料
Anthropic研究推出“内省适配器”(IA)——一种让大模型主动“自曝黑历史”的AI安全审计新工具。研究人员故意训练了近700个带隐藏问题的模型,再用一个轻量LoRA适配器接入这些模型,直接提问:“你有什么不寻常行为?”结果令人惊喜:在标准审计基准中,56个“嘴硬型”模型里,50个至少坦白过一次(开口率89%),整体平均检出率达59%,超越现有最佳黑箱(53%)和白盒方法(44%)。
它甚至揪出了此前10种方法全失败的“装弱AI”,并在加密恶意微调中识别出7/9种攻击。但IA并非万能:它擅长描述“症状”(如“我会拒绝某些请求”),却难揭示“动机”(如“我在骗奖励模型”);误报率较高,且需针对同架构模型专门训练,尚不能即插即用到GPT。https://www.163.com/dy/article/KS5TE6BJ0511ABV6.html

1-3. 哈萨比斯最新访谈:通往AGI需突破单纯的上下文窗口扩容,建立持续学习与记忆机制
Demis Hassabis(哈萨比斯),谷歌DeepMind CEO、AI领域传奇人物,近日在YC访谈中系统分享了他对通用人工智能(AGI)发展的最新思考。他强调:AGI不是更大模型的简单堆砌,而需突破三大瓶颈——持续学习能力(像人脑睡眠时整合记忆)、强化学习驱动的内省推理,以及高效记忆调用机制(百万级上下文≠智能,关键在精准提取)。
目前,DeepMind已用模型蒸馏技术让小型端侧模型(如Gemma、Flash系列)达到前沿大模型90%–95%性能,成本仅1/10,正加速AI向手机、眼镜、机器人等终端普及。科学上,AlphaFold已服务全球300万+生物学家,团队正攻坚“虚拟细胞”——目标十年内建成首个可扰动、可预测的完整细胞数字模型。https://www.ofweek.com/ai/2026-04/ART-201717-8110-30686445.html

1-4. 字节「Seed3D 2.0」炸场:一张图秒生 3D 物体,评测胜率近 90%!推主却说——Meshy 现在更能打
字节跳动Seed团队发布的Seed3D 2.0,是当前单图生成3D模型的“新标杆”:仅需一张图片,就能输出高精度几何+真实感PBR材质的3D模型,在几何与材质两大核心指标上均达行业SOTA(最先进水平)。60位专业建模师盲测显示,其结果被偏好的比例高达89.9%。
技术升级关键在于“由粗到细”的两阶段生成——先稳结构、再精修细节,并用MoE架构和视觉语言模型(VLM)提升材质在复杂光照下的稳定性。更进一步,它还能输出带关节信息的仿真级资产,支持直接接入游戏、XR或物理仿真流程。不过,现实仍很清醒:发布者自己坦言“Meshy和Tripo目前更好用”,开发者也指出——网格边界(mesh boundaries)和UV接缝等工程细节,才是从Demo走向生产线的真正门槛。https://view.inews.qq.com/k/20260423A04AVC00


1-5. 哈佛Science重磅:AI急诊诊断准确率67%,超越资深主治!取代医生尚早
近日,哈佛医学院与贝斯以色列医院在《Science》发表一项突破性研究:在真实急诊场景中,OpenAI的o1模型在“信息最匮乏”的分诊环节诊断准确率达67.1%,显著高于两位内科主治医生(55.3%和50.0%);在治疗方案制定中,o1达89%,医生中位数仅34%。
研究基于76例零预处理的真实急诊病历,采用双盲评审——连资深医生都难以分辨诊断出自AI还是人类(识别准确率最低仅3.1%)。但需注意:对比对象是内科医生,非急诊专科医师;AI尚无法感知面色、呼吸音等临床直觉信号。研究者强调,这不是“AI取代医生”,而是迈向“人机协同”新阶段——如自动驾驶L2-L3级:AI强于文本推理与快速初筛,医生不可替代于生命体征判断、共情沟通与最终决策。https://www.itsolotime.com/archives/33169

1-7. 1分钟烧光4千万Token!OpenAI最疯狂的男人,逼奥特曼亲自加额度
OpenAI正经历一场“高光与危机并存”的戏剧性时刻:一边是技术狂飙——“龙虾之父”Peter Steinberger仅用1分钟就耗尽OpenAI API高达4000万token(约30万页A4纸文字)的配额,背后是刚发布的GPT-5.5驱动的Codex——它能自主规划、调用工具、修复代码,被开发者誉为“十年最重要AI突破”。Codex正加速进化为覆盖Mac、iOS、浏览器的超级应用,直指Claude Code。
但硬币另一面是严峻现实:2026年营收未达标,周活用户止步8亿(距10亿目标有缺口);已签下超1.4万亿美元云服务合同,却面临巨大现金流压力;更关键的是,Anthropic已在LLM收入份额(31.4% vs 29%)、代码生成市占率(42–54% vs 21%)和单用户收入(16.2美元 vs 2.2美元)上全面反超。https://view.inews.qq.com/k/20260504A03V1000

AI大模型算法、赛事和会议
2-1. UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!
Agent正从单兵作战迈向“蜂群协作”时代——Claude Code等系统已普遍采用多Agent并行工作。但随之而来一个关键矛盾:并行度越高,传统Prompt Learning反而越容易失效。研究发现,当批量聚合多个Agent的反思轨迹时,模型会自发进行“有损压缩”,丢弃高价值的细粒度经验,导致下游任务准确率显著下降——FiNER和Formula数据集上质量退化达18%~32%。
为此,UC伯克利与斯坦福提出Combee框架,借鉴分布式训练的Map-Shuffle-Reduce范式:通过多级并行扫描避免信息过载,增强混洗机制保障每条高密度反思不被遗漏,并用动态批次控制器智能平衡速度与质量。实测表明,在GEPA/ACE框架下,Combee在保持100%任务达标率的同时,训练延迟降低5.3倍。https://view.inews.qq.com/k/20260504A0754Q00


AI人才和资本动态
3-1. 斯坦福HAI大重组!李飞飞升任校长顾问
斯坦福大学近日宣布重大调整:将“以人为本人工智能研究院”(HAI)与“数据科学研究所”合并为统一的Stanford HAI,由人机交互权威James Landay领衔。此举标志着AI发展进入新阶段——单靠算法或算力已不够,关键在于“组织力”。
二者合并后,HAI将成为斯坦福AI的“唯一入口”,聚焦三大方向:①重塑科研范式(如用AI搜系外行星、解码脑信号);②推动教育变革(从K-12到终身学习);③研究AI社会影响(就业、公平、治理)。创始人李飞飞升任校长AI特别顾问,站位更高;图灵奖得主John Hennessy出任顾问委员会联席主席。核心理念是“开放”——开源模型、开放数据、开放课程。https://www.163.com/dy/article/KS5IRPIQ0511ABV6.html

3-2. OpenAI 砸 100 亿成立「部署公司」!企业 AI 最大的战争,根本不在模型上
OpenAI近日宣布成立新公司“The Deployment Company”,融资超40亿美元,估值约100亿美元,由OpenAI控股,并联合19家私募机构共同打造。关键在于:这些投资方旗下 portfolio 覆盖超2000家企业客户——OpenAI由此获得一张现成的企业分发网络。
这标志着AI竞争重心正从“谁的模型更强”转向“谁能把AI真正装进企业系统里”。数据显示,尽管90%以上大型企业已开展AI试点(PoC),但真正跑通端到端业务流程的不足10%。症结不在模型能力,而在数据接入、权限管理、系统集成、流程适配与人工审核等落地工程。OpenAI官方白皮书明确定义自身为“AI research and deployment company”,部署(Deployment)已升为企业战略核心。https://aitntnews.com/newDetail.html?newId=24740
3-3. 谷歌、英伟达押注AI工公司Recursive估值 40 亿美元
这是一场关于“AI如何研究AI”的新军备竞赛。成立仅4个月的初创公司Recursive Superintelligence,凭“自学习AI”概念获5亿美元融资、估值达40亿美元——领投方是Google风投GV,跟投方是英伟达。创始人Richard Socher是NLP奠基人之一(谷歌学术引用超18万次),曾主导MetaMind、Salesforce Einstein GPT和You.com。
公司目标不是让AI更会答题,而是让它自主完成科研闭环:提假设、做实验、分析结果、迭代优化,把人类研究员“从循环里移走”。当前顶级AI研究员年薪高达1500–2000万美元,若系统能以更低成本加速突破,将重塑药物研发、材料科学等底层创新逻辑。GV押注是对AI for Science战略的延伸,英伟达则瞄准指数级增长的算力需求。https://m.huxiu.com/article/4855722.html
写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评
