26年6月4日,全球AI资讯约15条:视频世界模型近似无损提速3.7 倍、Windows 完成 AI 底层重构、原华为盘古王云鹤创业 新公司估值1亿美元等

昨日,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
字节跳动近日开源AI视频编辑新框架Bernini(中文名“伯尼尼”),核心理念是——先理解,再生成。先由多模态大模型精准解析你的文字指令、原视频、参考图/视频,明确“要改什么、保留什么、怎么变才自然”;再交由高性能DiT扩散模型完成高质量、帧间稳定的视觉渲染。
实测显示,Bernini能一键实现晴天→雪天→雾天等全场景风格迁移,且同步调整光照、材质、透视与环境氛围;支持主体植入(如把狗狗自然加入街景)、材质替换(盘子秒变大理石/金属)、屏幕内容精准嵌入(海报贴进LED屏不穿帮),甚至用5张不同角度雕塑图生成360°连贯镜头,物体一致性达90%以上。目前首期模型Bernini-R已开源,代码、权重全部免费开放。https://www.qbitai.com/2026/06/427810.html
1-2. 百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA
百度最新发布的PaddleOCR-VL-1.6,是当前全球最强的开源文档解析模型之一。它在权威评测OmniDocBench v1.6中准确率达96.33%,大幅领先Gemini-3-Pro等主流大模型;在更贴近现实的Real5-OmniDocBench(涵盖扫描件、弯折页等五大难题)中也拿下93.19%,比Gemini高近4个百分点。
该模型专攻复杂文档理解,对表格、公式、古籍、生僻字、印章和图表识别能力显著提升,支持超100种语言,服务全球170多个国家的用户。值得一提的是,它仅用0.9B轻量级架构,却实现性能跃升,且与前代VL-1.5完全兼容,开发者可“零改造”升级。目前模型已开源,并上线官网提供网页版和API调用——中国开源OCR项目GitHub Star数已达79.2K稳居全球第一梯队。https://www.qbitai.com/2026/06/427754.html

1-3. Claude Cowork做不好的领域,被国产黑马Agent彻底跑通了!
2026年,AI正从“能说会道”迈向“真能干活”,但通用大模型在专业领域频频“露怯”。真正破局的,是一匹国产黑马:深度智联推出的垂直智能体CoWork与行业大模型DeepLinkRE-LLM。其核心不是堆参数,而是“模数共振”:依托20年沉淀的独家数据库(覆盖322万+地块、44.5万+楼盘)、150+专家审核知识库、100+可复用行业Skill,再通过Agent工程实现端到端闭环。
实测中,AI数小时生成50万字《中国房地产年鉴》底稿,获专家高度认可;TOP房企反馈:“比花30万元外包的咨询报告还深”。它不止提效,更将个人经验转化为组织能力,推动企业从“经验驱动”迈向“能力驱动”。这标志着:AI落地的关键,不在通用,而在深耕——谁吃透行业,谁定义未来。https://www.163.com/dy/article/KUGF5K6L0511ABV6.html

1-4. Dubbing v2 : ElevenLabs 推出的 AI 配音模型
ElevenLabs 于2026年推出的Dubbing v2,是AI配音技术的一次重大升级——它不再“听写→翻译→合成”,而是直接从原始音频的声学特征出发,端到端实现跨语言配音。支持29种语言,能自动分离多说话人、精准克隆音色,并完整保留原声的情绪、语调、停顿和语气,真正做到“听起来就像本人在说这门语言”。
官方演示显示,情感保留率超92%(媒体评测均值),时间轴自动对齐误差<0.3秒。操作极简:上传视频/音频→选目标语言→一键生成,支持导出带字幕视频、纯音频等格式。目前仅限ElevenLabs平台使用,月费22美元仅含9分钟配额,长视频需拆分。虽面临YouTube免费多语功能等竞争,但其“情感无损迁移”能力已广泛应用于有声书、影视本地化等领域。https://aiguide.cc/23768/
1-5. Polar : 英伟达开源的智能体强化学习训练框架
英伟达开源强化学习框架 Polar,专为代码智能体(如Codex、Qwen Code等)训练而生。它最大亮点是“不改一行原代码”——只需在模型API调用层插入轻量网关,即可让现有代码执行框架(Harness)无缝接入GRPO强化学习。开源一周即获GitHub 5000+ stars,超100个项目集成。
实测显示:GPU利用率从20.4%跃升至87.7%,训练耗时缩短至原来的18%(189.5→35.2分钟),Codex的pass@1准确率3.8%飙升至26.4%(+595%)。其核心是“以API为边界采集数据”,通过Rollout Server与Gateway Node协同,实时重构完整训练轨迹,并借助prefix_merging等技术实现高效异步训练。虽对硬件和任务类型有一定要求,但已广泛应用于代码修复、金融策略、自动驾驶等领域https://aiguide.cc/23762/

1-6. Windows 完成 AI 底层重构:MXC 沙盒 + 自研七大AI模型 + 长效自主 Agent 齐登场
微软Build 2026大会宣告:Windows正式升级为“全球首个企业级AI Agent操作系统”。核心亮点三箭齐发——安全底座、智能引擎、硬件算力全面进化。
安全上,推出操作系统级沙箱MXC,四档隔离(进程/会话/虚拟机/云),现场演示OpenClaw试图删除桌面文件被100%拦截——GitHub星标29.5万的“野龙虾”终于可放心进内网;智能上,首发7款自研MAI模型,其中推理模型MAI Thinking 1零蒸馏训练,性能对标Anthropic Opus 4.6;硬件上,搭载RTX Spark芯片的新Surface实现1 petaflop本地AI算力,单机流畅运行1200亿参数大模型。
最重磅的是Copilot“四合一”升级整合为统一超级应用,首个数字员工Scout已上线Teams/Outlook,拥有独立身份与许可证https://view.inews.qq.com/a/20260603A01OUL00


AI大模型算法、赛事和会议
2-1. 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍
WorldCache 是一种专为“扩散世界模型”设计的高效推理加速方法,不需重训练、几乎不增显存(如在HunyuanVoyager-13B上仅从50.44GB升至50.58GB),却显著提速:端到端延迟从1053.7秒降至288.6秒(3.65倍加速),质量几乎无损。
它突破传统“一刀切”缓存的局限,抓住世界模型两大痛点:空间异质性和时间非均匀性。为此,WorldCache首创“双轨策略”:一是按曲率将Token分为Stable(直接复用)、Linear(线性外推)、Chaotic(阻尼更新)三类,精准分配计算;二是只监控Chaotic Token的归一化漂移,实现“混沌优先”的自适应重算。在Aether-5B等模型上同样稳健,3D重建延迟降低2.61倍。https://www.51cto.com/article/845174.html

AI基础设施方面(硬软件、数据)
3-1. 大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱
现有安全评测只检查模型“说了什么”,却对“做了什么”视而不见,造成严重盲区。南京航空航天大学等推出首个真实OS级评测基准LITMUS,首次系统定义并量化“执行幻觉”(EH)——即语义拒绝但物理执行的危险现象。其核心是语义-物理双层验证:每条测试前后自动快照系统状态,并通过OS级回滚确保用例隔离。
实测六款主流大模型发现:所有模型均存在执行幻觉(EHR 7.98%–9.97%);最危险的“通信外联”类攻击成功率高达97%;而“技能注入”“实体包装”等间接攻击,比话术越狱更稳定有效。LITMUS呼吁:EHR(执行幻觉率)必须成为与ASR并列的安全新标尺——安全,不能只靠“听它说什么”,而要看“它干了什么”。https://m.163.com/dy/article/KUFQBM3T0511ABV6.html

AI人才和资本动态
4-1. OpenAI挖走中科大少年班校友!12岁上大学,哈佛史上最年轻正教授
近日,哈佛史上最年轻华人正教授、12岁考入中科大少年班的物理天才尹希,被曝以“学术休假”(Sabbatical)形式加入OpenAI,聚焦AI与理论物理交叉研究。同批加盟的还有宾大沃顿正教授、考普斯会长奖得主苏炜杰,以及斯坦福量子物理权威Geoff Penington等多位新视野奖得主——OpenAI团队已汇聚至少4位物理学新视野奖得主、2位斯隆奖得主。业内戏称其“教授密度”成新KPI。
尹希虽未官宣,但GitHub活跃贡献Lean形式化项目,并用GPT-5.5辅助撰写20卷《量子场论》专著(已完成前12卷),自称AI助其效率提升100倍:“以前十年写的代码,现在几周搞定”。他坚信“没有人类智力是AI复制不了的”,主张AI不是工具,而是突破算力瓶颈的“外挂”。https://www.qbitai.com/2026/06/428003.html
4-2. 突发,原华为盘古王云鹤创业!新公司估值1亿美元
王云鹤,91年出生的“华为盘古少帅”,2026年3月离职后迅速创立AI公司「基元律动」,仅两个月便获1亿美元估值融资,背后是一线VC与头部互联网大厂联合加持。他没选择继续卷大模型,而是押注AI Agent——让AI真正“动手做事”。其团队已拿下稳定国资背景客户,验证了To B/G端快速落地能力。
核心优势有三:一是王云鹤主导盘古大模型的实战经验;二是与北大同门、GhostNet作者韩凯组成“CEO+CTO”黄金搭档,专注轻量化、高效率智能体技术;三是前瞻性布局——其论文《DLLM Agent》强调AI要从“会说”升级为“能操作手机/电脑”的自主智能体。公司正以年薪60–100万元招募AGI信徒,聚焦Agent开发、算法与安全合规。https://www.163.com/dy/article/KUF5P3140511ABV6.html
4-3. 斯坦福辍学生用400个气球监测地球,AI天气预报精度碾压欧洲官方机构
美国小伙John Dean从斯坦福辍学创办WindBorne,立志解决气象预报的“数据盲区”难题——全球85%的大气层缺乏观测,尤其海洋与极地几乎空白,而风暴恰恰在此孕育。他带领团队自研全球探空气球(GSB):单个仅重1.2公斤,续航超12天(最长75天),可自主导航、每球采集50+垂直剖面数据,并通过卫星7分钟内回传。目前全球15个站点同步放飞约400个气球,目标建成万颗气球“星座”。
依托独家实时数据,WindBorne推出AI天气模型WeatherMesh 6:每小时更新、3公里分辨率,提前5天预报精度媲美欧洲中期天气预报中心提前1天水平。今年初美国东北部暴风雪中,其模型6天前即精准锁定强低压,领先主流模型整整2天。公司已获2500万美元融资,估值8500万。https://aitntnews.com/newDetail.html?newId=25803


4-4. 软银750亿欧元押注法国5GW数据中心,刷新欧洲AI基建投资规模
软银集团宣布将在法国投资高达750亿欧元(约870亿美元),建设总容量达5吉瓦(GW)的人工智能数据中心,目标是把法国打造成欧洲顶级AI基础设施枢纽。首期投入450亿欧元,计划到2031年在上法兰西大区建成3.1吉瓦算力,首批选址敦刻尔克、博斯凯尔和布尚——其中敦刻尔克项目将联合施耐德电气,打造AI+机器人制造中心,辐射伦敦、布鲁塞尔和阿姆斯特丹。
这一布局是软银全球AI基建战略的关键一环:此前它刚宣布在美俄亥俄州投建100吉瓦级“AI超级综合体”,并深度参与5000亿美元的“星际之门”计划,同时向OpenAI注资超600亿美元获13%股份。不过,资金压力已显现:原拟以OpenAI股份担保的100亿美元贷款,因债权人谨慎态度被缩减至约60亿美元。https://www.ithome.com/0/957/698.htm

AI风险与政策管理
5-1. 忍无可忍,Linux之父怒怼AI:别再用「智能垃圾」塞满内核列表了!
今年4–5月,AI安全领域迎来一场“水门事件级”危机:AI漏洞扫描能力爆发式增长,却意外压垮了全球最成熟的安全协作机制。以Linux内核为例,其运行20余年的私密安全邮件列表,本用于处理真正敏感的零日漏洞,如今却被成百上千份高度重复、低信息量的AI报告淹没——同一漏洞被不同人用相似AI工具反复提交,导致维护者70%以上时间耗在甄别垃圾邮件上。
Linus Torvalds罕见直言该列表“几乎完全无法管理”,堪称开源安全体系的“病危通知书”。更严峻的是,Anthropic因旗下AI模型Mythos具备串联漏洞、自动生成可利用PoC(概念验证)的能力,主动暂停发布,启动“玻璃翼计划”,成为AI史上首次因攻防失衡而自我限速。https://www.163.com/dy/article/KUG82QAT0511ABV6.html

写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评
