26年6月5日，全球AI资讯约15条：世界模型榜首易主跨维智能登顶WorldArenaAI、音乐独角兽Suno再融4亿美元估值翻倍至54亿美元等

发布时间：2026-06-04来源：新智讯

关注后加星: 早上七点钟, 全球AI动态在手中

昨日，AI领域发生了多项重要事件和进展，共计约15条汇总如下。

AI应用进展和演化

1-1. 重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

谷歌DeepMind最新发布的Gemma 4 12B，是一款划时代的轻量级多模态大模型——它首次让真正支持图像、音频和文本理解的智能体能力，跑进了普通笔记本电脑。仅需16GB显存/内存（MacBook Air M5即可胜任），内存占用不到26B MoE模型的一半，但性能接近后者。

关键突破在于“无编码器架构”：视觉信息经极简嵌入模块直送语言模型；原始音频信号直接投影到文本token空间，大幅降低延迟与内存开销。它还是Gemma家族首个原生支持音频输入的中等规模模型（120亿参数），具备本地多步推理与离线Agent能力（如语音转录+翻译+格式化，全程不联网）。开发者可通过LM Studio、Ollama等工具快速部署，Apache 2.0开源，支持Hugging Face、llama.cpp等主流框架。
https://view.inews.qq.com/k/20260604A01DK600

1-2. 世界模型榜首易主！跨维智能登顶WorldArena

近日，中国AI企业跨维智能在世界模型权威评测平台WorldArena中强势登顶Track 2（Data Engine）赛道全球第一，力压谷歌、英伟达等国际巨头及WoW、BLM等主流模型。该赛道不比“画面有多像”，而严苛考核模型作为数据引擎、策略评估器与行动规划器的全链路落地能力——最终以机器人真实任务成功率为核心指标。跨维智能的DSCFuncWorld模型在16项细分指标和3大真实任务中表现突出，大幅刷新全球最优成绩。

其技术核心在于自研的DexWorldModel底座，首创“因果隐空间建模”，结合DINO语义特征精准推演物理世界状态；配套EVA框架和EmbodiChain数据基建，确保生成数据可训练、可迁移、可执行——机器人任务成功率提升显著，合成数据质量达产业级标准。
https://www.qbitai.com/2026/06/428435.html

1-3. 从看懂世界到做对动作，卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层

卧安机器人最新发布的OneModel 1.7，用一条“隐式通路”成功打通了具身智能的核心瓶颈——世界模型“看懂了环境”，却“做不对动作”的断层。它不靠生成图像或坐标等显式中间结果，而是在潜在空间中直接将场景理解转化为动作策略，大幅降低误差与延迟。

实测显示：在标准评测LIBERO上成功率高达99%，真机执行日常家务（如洗衣、叠衣）达99%，高精度任务（如倒咖啡豆）也达97%；甚至真人对打乒乓球接球成功率91.2%。更关键的是，其架构已支撑“一脑多形”落地——同一模型驱动保姆机器人H1、网球机器人Acemate和陪伴机器人Kata Friends，实现能力跨形态复用。公司同步启动国内最大家庭具身智能数据采集中心，为模型持续进化提供真实燃料。
https://www.qbitai.com/2026/06/428703.html

1-4. OpenClaw终于拿下Windows！全球龙虾党狂欢

OpenClaw 2026.6.1版发布，堪称AI Agent发展里程碑！最核心突破是Windows原生支持——终结了此前依赖WSL2或Docker的“二等公民”状态，让全球16亿台Windows设备首次可直接作为分布式智能体节点接入。

文件I/O性能提升10倍，旧游戏本、办公机甚至闲置台式机，瞬间变身AI“肉身”。同步上线三大重磅功能：一是Skill Workshop，Agent能自主发现能力缺口、提案新技能（已积累1.3万+社区技能），人类审核+版本管理+一键回滚，实现安全可控的自我进化；二是Workboard（工作板），支持多Agent任务拆解、进度追踪与协同编排，真正实现“AI团队协作”；三是底层全面升级：SQLite替代文件扫描、MiniMax M3与Claude 1M长上下文等顶尖模型/插件原生集成。
https://www.163.com/dy/article/KUIOO5G00511ABV6.html

1-5. 跻身全球第一梯队！京东开源JoyAI-Echo框架：解决长视频生成三大

京东近日推出开源长视频生成框架JoyAI-Echo，直击行业痛点：角色“崩脸”、声音突变、生成太慢。实测显示，在5分钟长视频中，角色外貌、身份和音色一致性极高，语音内容准确率达0.8646（行业领先）；借助独创的DMD技术，推理速度提升约7.5倍。

它内置“跨模态记忆库”，支持多镜头连贯生成；配备“智能导演助理”，用户用自然语言即可拆解剧本、修改局部镜头，无需重做整条视频；还集成实时超分模块，可将736×1280视频升至1472×2560高清分辨率。代码与权重已全部开源，开发者可免费体验和二次开发。此举标志着京东正式跻身全球长视频生成技术第一梯队。
https://www.chinaz.com/2026/0604/1756659.shtml

1-6. 老黄的Cosmos 3刚发一天，就被一家中国公司反超了

6月1日，英伟达在GTC大会上发布面向物理世界的AI模型Cosmos 3，强调其“视觉推理+世界生成+动作生成”三位一体能力，并称其为全球首个完全开放的全能具身模型。但仅过一天，中国公司千寻智能的Spirit v1.6就在权威榜单RoboArena反超登顶全球第一。

RoboArena不测“纸上谈兵”，而是让机器人在真实环境双盲对抗——比如打开笔记本、精准抓放卡皮巴拉玩偶。此前v1.5已在RoboChallenge真机评测中以66.09分、50.33%成功率领先竞品pi 0.5。千寻的核心竞争力在于“真实数据闭环”：自研7代可穿戴采集设备，覆盖全国100+城市，目标2026年沉淀百万小时真实交互数据；并已落地京东MALL（咖啡制作）、宁德时代（PACK产线效率达人工3倍）、博世工业场景。
https://aitntnews.com/newDetail.html?newId=25850

AI大模型算法、赛事和会议

2-1. RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50条数据解锁通用机器人操控

LingBot-VA 是蚂蚁灵波等机构提出的新型机器人“世界模型”，旨在让机器人真正理解物理规律、预测未来并自主规划动作。它突破了当前主流模型只看当前画面、忽略因果关系的局限，首次将视频帧预测与动作推理统一在自回归扩散框架中——即“先想世界会怎么变，再决定自己该怎么做”。

模型用50个真实演示数据微调，就在做早餐、叠衣服、插管子等复杂任务中达到SOTA：在RoboTwin 2.0基准上成功率高达92.0%（Easy）和91.1%（Hard）；在LIBERO四类任务中平均达98.5%。消融实验显示，去掉视频预测模块，成功率从92.93%暴跌至48.31%，印证了“视觉预测是物理理解的核心”。更难得的是，它仅需单张RTX 5880 GPU，控制延迟约0.5秒，兼顾实时性与智能性。
https://view.inews.qq.com/k/20260603A05TZ000

AI人才和资本动态

3-1. 戴盟机器人完成亿元融资，阿里通义多模态大牛加盟攻关物理世界

戴盟机器人近日完成亿元A轮融资，由汇川产投和中国电信联合投资。与多数公司聚焦视觉或语言不同，戴盟坚定走“触觉优先”路线——把触觉作为理解物理世界的核心入口。其首席AI科学家原玮浩提出：视频世界模型预测“画面”，而戴盟的物理世界模型预测“接触”——包括下一刻的触觉信号、滑移风险、操作成败及修正策略。

团队将触觉交互拆解为两层：毫秒级响应的“脊髓式”触觉伺服（百赫兹），与前瞻性的物理推理。为支撑这一方向，戴盟发布全球最大的含触觉全模态数据集Daimon-Infinity，并联合银河通用推出首个触觉评测基准RobOmni。目前行业触觉数据稀缺、对齐难、缺标准，戴盟正系统性攻克“触觉Scaling Law”的基础难题。
https://www.qbitai.com/2026/06/428778.html

3-2. Anthropic秘密交表：逼近万亿美金估值，打响AI上市第一枪

AI明星公司Anthropic以9650亿美元估值（超越OpenAI的8520亿）成为全球最值钱AI初创企业，并秘密向美国SEC递交IPO申请，打响AI领域“三巨头上市大战”的第一枪。短短28个月，其年化收入（ARR）从8700万美元飙升至440亿美元，暴涨约5000倍；核心产品Claude Code（AI编程助手）上线仅一年，已贡献超半数收入，覆盖Netflix、Salesforce等千家企业客户。

更关键的是：它正快速盈利——预计2026年Q2营收将达109亿美元，首次实现5.59亿美元营业利润。与OpenAI仍依赖个人用户订阅不同，Anthropic 85%收入来自高粘性、高客单价的企业合同。这场“抢跑”，不仅是资本卡位，更是AI行业从技术狂想迈向真金白银盈利的成人礼。秋天，或将见证历史性IPO。
https://www.ofweek.com/ai/2026-06/ART-201718-8420-30689404.html

3-3. AI音乐独角兽Suno再融4亿美元，估值翻倍至54亿美元，订阅用户超200万

Suno 是一家用AI帮普通人“一句话写歌”的音乐科技公司，最近以54亿美元估值完成4亿美元融资估值半年翻倍，成为全球最贵AI音乐企业。用户只需输入文字（如“80年代复古电子风、带合成器前奏、歌词讲城市孤独”），几秒就能生成完整歌曲。目前它已有200万订阅用户，年营收预计达3亿美元，员工将从200人扩至340人。

投资方包括曾押中OpenAI的Bond Capital等顶级风投，连华纳音乐也已与其达成版权和解并签署授权协议，即将推出可合法引用华纳曲库的新功能。尽管环球、索尼仍起诉Suno涉嫌侵权，但越来越多音乐人私下使用它创作——AI正从“玩具”变成行业新工具。创始人愿景很朴素：让人人都能当创作者，就像当年编程从专家技能变成全民能力一样。
https://aitntnews.com/newDetail.html?newId=25854

3-4. 星尘智能估值破100亿，最全投资方名单曝光

星尘智能，这家2022年成立于深圳的AI机器人公司，仅用三年便成长为“中国具身智能第一梯队”代表——三个月内连融三轮（A++、B轮系列），总融资超10亿元，估值突破100亿元。它罕见地同时自研三大核心：AI基座模型、具身操作系统（OS）和全球首个量产的绳驱机器人本体。

创始人来杰出身百度AI与腾讯RoboticsX实验室，坚持“Design for AI”理念，反向以AI需求定义硬件，避开行业“先造壳再塞算法”的老路。产品上，旗舰S系列后，5月推出的T系列起售价仅8.99万元，大幅降低应用门槛；2026年将实现T1机型万台级量产。目前已在科研、零售、工业物流等场景完成千台真实交付，并采用“L2遥操+L4模型”双轨策略，兼顾落地效率与长期进化。
https://view.inews.qq.com/k/20240718A065WA00

写在最后

欢迎大家关注、分享、转发本公众号，也欢迎直接与小编联系对接合作～

小问卷：公众号打分点评

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

26年6月5日，全球AI资讯约15条：世界模型榜首易主 跨维智能登顶WorldArenaAI、音乐独角兽Suno再融4亿美元 估值翻倍至54亿美元等

26年6月5日，全球AI资讯约15条：世界模型榜首易主跨维智能登顶WorldArenaAI、音乐独角兽Suno再融4亿美元估值翻倍至54亿美元等