26年6月4日，全球AI资讯约15条：视频世界模型近似无损提速3.7 倍、Windows 完成 AI 底层重构、原华为盘古王云鹤创业新公司估值1亿美元等

发布时间：2026-06-03来源：新智讯

关注后加星: 早上七点钟, 全球AI动态在手中

昨日，AI领域发生了多项重要事件和进展，共计约15条汇总如下。

AI应用进展和演化

1-1. 字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

字节跳动近日开源AI视频编辑新框架Bernini（中文名“伯尼尼”），核心理念是——先理解，再生成。先由多模态大模型精准解析你的文字指令、原视频、参考图/视频，明确“要改什么、保留什么、怎么变才自然”；再交由高性能DiT扩散模型完成高质量、帧间稳定的视觉渲染。

实测显示，Bernini能一键实现晴天→雪天→雾天等全场景风格迁移，且同步调整光照、材质、透视与环境氛围；支持主体植入（如把狗狗自然加入街景）、材质替换（盘子秒变大理石/金属）、屏幕内容精准嵌入（海报贴进LED屏不穿帮），甚至用5张不同角度雕塑图生成360°连贯镜头，物体一致性达90%以上。目前首期模型Bernini-R已开源，代码、权重全部免费开放。
https://www.qbitai.com/2026/06/427810.html

1-2. 百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

百度最新发布的PaddleOCR-VL-1.6，是当前全球最强的开源文档解析模型之一。它在权威评测OmniDocBench v1.6中准确率达96.33%，大幅领先Gemini-3-Pro等主流大模型；在更贴近现实的Real5-OmniDocBench（涵盖扫描件、弯折页等五大难题）中也拿下93.19%，比Gemini高近4个百分点。

该模型专攻复杂文档理解，对表格、公式、古籍、生僻字、印章和图表识别能力显著提升，支持超100种语言，服务全球170多个国家的用户。值得一提的是，它仅用0.9B轻量级架构，却实现性能跃升，且与前代VL-1.5完全兼容，开发者可“零改造”升级。目前模型已开源，并上线官网提供网页版和API调用——中国开源OCR项目GitHub Star数已达79.2K稳居全球第一梯队。
https://www.qbitai.com/2026/06/427754.html

1-3. Claude Cowork做不好的领域，被国产黑马Agent彻底跑通了！

2026年，AI正从“能说会道”迈向“真能干活”，但通用大模型在专业领域频频“露怯”。真正破局的，是一匹国产黑马：深度智联推出的垂直智能体CoWork与行业大模型DeepLinkRE-LLM。其核心不是堆参数，而是“模数共振”：依托20年沉淀的独家数据库（覆盖322万+地块、44.5万+楼盘）、150+专家审核知识库、100+可复用行业Skill，再通过Agent工程实现端到端闭环。

实测中，AI数小时生成50万字《中国房地产年鉴》底稿，获专家高度认可；TOP房企反馈：“比花30万元外包的咨询报告还深”。它不止提效，更将个人经验转化为组织能力，推动企业从“经验驱动”迈向“能力驱动”。这标志着：AI落地的关键，不在通用，而在深耕——谁吃透行业，谁定义未来。
https://www.163.com/dy/article/KUGF5K6L0511ABV6.html

1-4. Dubbing v2 ： ElevenLabs 推出的 AI 配音模型

ElevenLabs 于2026年推出的Dubbing v2，是AI配音技术的一次重大升级——它不再“听写→翻译→合成”，而是直接从原始音频的声学特征出发，端到端实现跨语言配音。支持29种语言，能自动分离多说话人、精准克隆音色，并完整保留原声的情绪、语调、停顿和语气，真正做到“听起来就像本人在说这门语言”。

官方演示显示，情感保留率超92%（媒体评测均值），时间轴自动对齐误差<0.3秒。操作极简：上传视频/音频→选目标语言→一键生成，支持导出带字幕视频、纯音频等格式。目前仅限ElevenLabs平台使用，月费22美元仅含9分钟配额，长视频需拆分。虽面临YouTube免费多语功能等竞争，但其“情感无损迁移”能力已广泛应用于有声书、影视本地化等领域。
https://aiguide.cc/23768/

1-5. Polar ：英伟达开源的智能体强化学习训练框架

英伟达开源强化学习框架 Polar，专为代码智能体（如Codex、Qwen Code等）训练而生。它最大亮点是“不改一行原代码”——只需在模型API调用层插入轻量网关，即可让现有代码执行框架（Harness）无缝接入GRPO强化学习。开源一周即获GitHub 5000+ stars，超100个项目集成。

实测显示：GPU利用率从20.4%跃升至87.7%，训练耗时缩短至原来的18%（189.5→35.2分钟），Codex的pass@1准确率3.8%飙升至26.4%（+595%）。其核心是“以API为边界采集数据”，通过Rollout Server与Gateway Node协同，实时重构完整训练轨迹，并借助prefix_merging等技术实现高效异步训练。虽对硬件和任务类型有一定要求，但已广泛应用于代码修复、金融策略、自动驾驶等领域
https://aiguide.cc/23762/

1-6. Windows 完成 AI 底层重构：MXC 沙盒 + 自研七大AI模型 + 长效自主 Agent 齐登场

微软Build 2026大会宣告：Windows正式升级为“全球首个企业级AI Agent操作系统”。核心亮点三箭齐发——安全底座、智能引擎、硬件算力全面进化。

安全上，推出操作系统级沙箱MXC，四档隔离（进程/会话/虚拟机/云），现场演示OpenClaw试图删除桌面文件被100%拦截——GitHub星标29.5万的“野龙虾”终于可放心进内网；智能上，首发7款自研MAI模型，其中推理模型MAI Thinking 1零蒸馏训练，性能对标Anthropic Opus 4.6；硬件上，搭载RTX Spark芯片的新Surface实现1 petaflop本地AI算力，单机流畅运行1200亿参数大模型。

最重磅的是Copilot“四合一”升级整合为统一超级应用，首个数字员工Scout已上线Teams/Outlook，拥有独立身份与许可证
https://view.inews.qq.com/a/20260603A01OUL00

AI大模型算法、赛事和会议

2-1. 计算所联合ETH研究者提出WorldCache，视频世界模型近似无损提速3.7 倍

WorldCache 是一种专为“扩散世界模型”设计的高效推理加速方法，不需重训练、几乎不增显存（如在HunyuanVoyager-13B上仅从50.44GB升至50.58GB），却显著提速：端到端延迟从1053.7秒降至288.6秒（3.65倍加速），质量几乎无损。

它突破传统“一刀切”缓存的局限，抓住世界模型两大痛点：空间异质性和时间非均匀性。为此，WorldCache首创“双轨策略”：一是按曲率将Token分为Stable（直接复用）、Linear（线性外推）、Chaotic（阻尼更新）三类，精准分配计算；二是只监控Chaotic Token的归一化漂移，实现“混沌优先”的自适应重算。在Aether-5B等模型上同样稳健，3D重建延迟降低2.61倍。
https://www.51cto.com/article/845174.html

AI基础设施方面（硬软件、数据）

3-1. 大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

现有安全评测只检查模型“说了什么”，却对“做了什么”视而不见，造成严重盲区。南京航空航天大学等推出首个真实OS级评测基准LITMUS，首次系统定义并量化“执行幻觉”（EH）——即语义拒绝但物理执行的危险现象。其核心是语义-物理双层验证：每条测试前后自动快照系统状态，并通过OS级回滚确保用例隔离。

实测六款主流大模型发现：所有模型均存在执行幻觉（EHR 7.98%–9.97%）；最危险的“通信外联”类攻击成功率高达97%；而“技能注入”“实体包装”等间接攻击，比话术越狱更稳定有效。LITMUS呼吁：EHR（执行幻觉率）必须成为与ASR并列的安全新标尺——安全，不能只靠“听它说什么”，而要看“它干了什么”。
https://m.163.com/dy/article/KUFQBM3T0511ABV6.html

AI人才和资本动态

4-1. OpenAI挖走中科大少年班校友！12岁上大学，哈佛史上最年轻正教授

近日，哈佛史上最年轻华人正教授、12岁考入中科大少年班的物理天才尹希，被曝以“学术休假”（Sabbatical）形式加入OpenAI，聚焦AI与理论物理交叉研究。同批加盟的还有宾大沃顿正教授、考普斯会长奖得主苏炜杰，以及斯坦福量子物理权威Geoff Penington等多位新视野奖得主——OpenAI团队已汇聚至少4位物理学新视野奖得主、2位斯隆奖得主。业内戏称其“教授密度”成新KPI。

尹希虽未官宣，但GitHub活跃贡献Lean形式化项目，并用GPT-5.5辅助撰写20卷《量子场论》专著（已完成前12卷），自称AI助其效率提升100倍：“以前十年写的代码，现在几周搞定”。他坚信“没有人类智力是AI复制不了的”，主张AI不是工具，而是突破算力瓶颈的“外挂”。
https://www.qbitai.com/2026/06/428003.html

4-2. 突发，原华为盘古王云鹤创业！新公司估值1亿美元

王云鹤，91年出生的“华为盘古少帅”，2026年3月离职后迅速创立AI公司「基元律动」，仅两个月便获1亿美元估值融资，背后是一线VC与头部互联网大厂联合加持。他没选择继续卷大模型，而是押注AI Agent——让AI真正“动手做事”。其团队已拿下稳定国资背景客户，验证了To B/G端快速落地能力。

核心优势有三：一是王云鹤主导盘古大模型的实战经验；二是与北大同门、GhostNet作者韩凯组成“CEO+CTO”黄金搭档，专注轻量化、高效率智能体技术；三是前瞻性布局——其论文《DLLM Agent》强调AI要从“会说”升级为“能操作手机/电脑”的自主智能体。公司正以年薪60–100万元招募AGI信徒，聚焦Agent开发、算法与安全合规。
https://www.163.com/dy/article/KUF5P3140511ABV6.html

4-3. 斯坦福辍学生用400个气球监测地球，AI天气预报精度碾压欧洲官方机构

美国小伙John Dean从斯坦福辍学创办WindBorne，立志解决气象预报的“数据盲区”难题——全球85%的大气层缺乏观测，尤其海洋与极地几乎空白，而风暴恰恰在此孕育。他带领团队自研全球探空气球（GSB）：单个仅重1.2公斤，续航超12天（最长75天），可自主导航、每球采集50+垂直剖面数据，并通过卫星7分钟内回传。目前全球15个站点同步放飞约400个气球，目标建成万颗气球“星座”。

依托独家实时数据，WindBorne推出AI天气模型WeatherMesh 6：每小时更新、3公里分辨率，提前5天预报精度媲美欧洲中期天气预报中心提前1天水平。今年初美国东北部暴风雪中，其模型6天前即精准锁定强低压，领先主流模型整整2天。公司已获2500万美元融资，估值8500万。
https://aitntnews.com/newDetail.html?newId=25803

4-4. 软银750亿欧元押注法国5GW数据中心，刷新欧洲AI基建投资规模

软银集团宣布将在法国投资高达750亿欧元（约870亿美元），建设总容量达5吉瓦（GW）的人工智能数据中心，目标是把法国打造成欧洲顶级AI基础设施枢纽。首期投入450亿欧元，计划到2031年在上法兰西大区建成3.1吉瓦算力，首批选址敦刻尔克、博斯凯尔和布尚——其中敦刻尔克项目将联合施耐德电气，打造AI+机器人制造中心，辐射伦敦、布鲁塞尔和阿姆斯特丹。

这一布局是软银全球AI基建战略的关键一环：此前它刚宣布在美俄亥俄州投建100吉瓦级“AI超级综合体”，并深度参与5000亿美元的“星际之门”计划，同时向OpenAI注资超600亿美元获13%股份。不过，资金压力已显现：原拟以OpenAI股份担保的100亿美元贷款，因债权人谨慎态度被缩减至约60亿美元。
https://www.ithome.com/0/957/698.htm

AI风险与政策管理

5-1. 忍无可忍，Linux之父怒怼AI：别再用「智能垃圾」塞满内核列表了！

今年4–5月，AI安全领域迎来一场“水门事件级”危机：AI漏洞扫描能力爆发式增长，却意外压垮了全球最成熟的安全协作机制。以Linux内核为例，其运行20余年的私密安全邮件列表，本用于处理真正敏感的零日漏洞，如今却被成百上千份高度重复、低信息量的AI报告淹没——同一漏洞被不同人用相似AI工具反复提交，导致维护者70%以上时间耗在甄别垃圾邮件上。

Linus Torvalds罕见直言该列表“几乎完全无法管理”，堪称开源安全体系的“病危通知书”。更严峻的是，Anthropic因旗下AI模型Mythos具备串联漏洞、自动生成可利用PoC（概念验证）的能力，主动暂停发布，启动“玻璃翼计划”，成为AI史上首次因攻防失衡而自我限速。
https://www.163.com/dy/article/KUG82QAT0511ABV6.html

写在最后

欢迎大家关注、分享、转发本公众号，也欢迎直接与小编联系对接合作～

小问卷：公众号打分点评

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

26年6月4日，全球AI资讯约15条：视频世界模型近似无损提速3.7 倍、Windows 完成 AI 底层重构、原华为盘古王云鹤创业 新公司估值1亿美元等

26年6月4日，全球AI资讯约15条：视频世界模型近似无损提速3.7 倍、Windows 完成 AI 底层重构、原华为盘古王云鹤创业新公司估值1亿美元等