26年6月5日,全球AI资讯约15条:世界模型榜首易主 跨维智能登顶WorldArenaAI、音乐独角兽Suno再融4亿美元 估值翻倍至54亿美元等

昨日,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑
谷歌DeepMind最新发布的Gemma 4 12B,是一款划时代的轻量级多模态大模型——它首次让真正支持图像、音频和文本理解的智能体能力,跑进了普通笔记本电脑。仅需16GB显存/内存(MacBook Air M5即可胜任),内存占用不到26B MoE模型的一半,但性能接近后者。
关键突破在于“无编码器架构”:视觉信息经极简嵌入模块直送语言模型;原始音频信号直接投影到文本token空间,大幅降低延迟与内存开销。它还是Gemma家族首个原生支持音频输入的中等规模模型(120亿参数),具备本地多步推理与离线Agent能力(如语音转录+翻译+格式化,全程不联网)。开发者可通过LM Studio、Ollama等工具快速部署,Apache 2.0开源,支持Hugging Face、llama.cpp等主流框架。https://view.inews.qq.com/k/20260604A01DK600


1-2. 世界模型榜首易主!跨维智能登顶WorldArena
近日,中国AI企业跨维智能在世界模型权威评测平台WorldArena中强势登顶Track 2(Data Engine)赛道全球第一,力压谷歌、英伟达等国际巨头及WoW、BLM等主流模型。该赛道不比“画面有多像”,而严苛考核模型作为数据引擎、策略评估器与行动规划器的全链路落地能力——最终以机器人真实任务成功率为核心指标。跨维智能的DSCFuncWorld模型在16项细分指标和3大真实任务中表现突出,大幅刷新全球最优成绩。
其技术核心在于自研的DexWorldModel底座,首创“因果隐空间建模”,结合DINO语义特征精准推演物理世界状态;配套EVA框架和EmbodiChain数据基建,确保生成数据可训练、可迁移、可执行——机器人任务成功率提升显著,合成数据质量达产业级标准。https://www.qbitai.com/2026/06/428435.html

1-3. 从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
卧安机器人最新发布的OneModel 1.7,用一条“隐式通路”成功打通了具身智能的核心瓶颈——世界模型“看懂了环境”,却“做不对动作”的断层。它不靠生成图像或坐标等显式中间结果,而是在潜在空间中直接将场景理解转化为动作策略,大幅降低误差与延迟。
实测显示:在标准评测LIBERO上成功率高达99%,真机执行日常家务(如洗衣、叠衣)达99%,高精度任务(如倒咖啡豆)也达97%;甚至真人对打乒乓球接球成功率91.2%。更关键的是,其架构已支撑“一脑多形”落地——同一模型驱动保姆机器人H1、网球机器人Acemate和陪伴机器人Kata Friends,实现能力跨形态复用。公司同步启动国内最大家庭具身智能数据采集中心,为模型持续进化提供真实燃料。https://www.qbitai.com/2026/06/428703.html


1-4. OpenClaw终于拿下Windows!全球龙虾党狂欢
OpenClaw 2026.6.1版发布,堪称AI Agent发展里程碑!最核心突破是Windows原生支持——终结了此前依赖WSL2或Docker的“二等公民”状态,让全球16亿台Windows设备首次可直接作为分布式智能体节点接入。
文件I/O性能提升10倍,旧游戏本、办公机甚至闲置台式机,瞬间变身AI“肉身”。同步上线三大重磅功能:一是Skill Workshop,Agent能自主发现能力缺口、提案新技能(已积累1.3万+社区技能),人类审核+版本管理+一键回滚,实现安全可控的自我进化;二是Workboard(工作板),支持多Agent任务拆解、进度追踪与协同编排,真正实现“AI团队协作”;三是底层全面升级:SQLite替代文件扫描、MiniMax M3与Claude 1M长上下文等顶尖模型/插件原生集成。https://www.163.com/dy/article/KUIOO5G00511ABV6.html
1-5. 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大
京东近日推出开源长视频生成框架JoyAI-Echo,直击行业痛点:角色“崩脸”、声音突变、生成太慢。实测显示,在5分钟长视频中,角色外貌、身份和音色一致性极高,语音内容准确率达0.8646(行业领先);借助独创的DMD技术,推理速度提升约7.5倍。
它内置“跨模态记忆库”,支持多镜头连贯生成;配备“智能导演助理”,用户用自然语言即可拆解剧本、修改局部镜头,无需重做整条视频;还集成实时超分模块,可将736×1280视频升至1472×2560高清分辨率。代码与权重已全部开源,开发者可免费体验和二次开发。此举标志着京东正式跻身全球长视频生成技术第一梯队。https://www.chinaz.com/2026/0604/1756659.shtml

1-6. 老黄的Cosmos 3刚发一天,就被一家中国公司反超了
6月1日,英伟达在GTC大会上发布面向物理世界的AI模型Cosmos 3,强调其“视觉推理+世界生成+动作生成”三位一体能力,并称其为全球首个完全开放的全能具身模型。但仅过一天,中国公司千寻智能的Spirit v1.6就在权威榜单RoboArena反超登顶全球第一。
RoboArena不测“纸上谈兵”,而是让机器人在真实环境双盲对抗——比如打开笔记本、精准抓放卡皮巴拉玩偶。此前v1.5已在RoboChallenge真机评测中以66.09分、50.33%成功率领先竞品pi 0.5。千寻的核心竞争力在于“真实数据闭环”:自研7代可穿戴采集设备,覆盖全国100+城市,目标2026年沉淀百万小时真实交互数据;并已落地京东MALL(咖啡制作)、宁德时代(PACK产线效率达人工3倍)、博世工业场景。https://aitntnews.com/newDetail.html?newId=25850


AI大模型算法、赛事和会议
2-1. RSS 2026|蚂蚁灵波提出首个自回归因果世界模型,50条数据解锁通用机器人操控
LingBot-VA 是蚂蚁灵波等机构提出的新型机器人“世界模型”,旨在让机器人真正理解物理规律、预测未来并自主规划动作。它突破了当前主流模型只看当前画面、忽略因果关系的局限,首次将视频帧预测与动作推理统一在自回归扩散框架中——即“先想世界会怎么变,再决定自己该怎么做”。
模型用50个真实演示数据微调,就在做早餐、叠衣服、插管子等复杂任务中达到SOTA:在RoboTwin 2.0基准上成功率高达92.0%(Easy)和91.1%(Hard);在LIBERO四类任务中平均达98.5%。消融实验显示,去掉视频预测模块,成功率从92.93%暴跌至48.31%,印证了“视觉预测是物理理解的核心”。更难得的是,它仅需单张RTX 5880 GPU,控制延迟约0.5秒,兼顾实时性与智能性。https://view.inews.qq.com/k/20260603A05TZ000

AI人才和资本动态
3-1. 戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界
戴盟机器人近日完成亿元A轮融资,由汇川产投和中国电信联合投资。与多数公司聚焦视觉或语言不同,戴盟坚定走“触觉优先”路线——把触觉作为理解物理世界的核心入口。其首席AI科学家原玮浩提出:视频世界模型预测“画面”,而戴盟的物理世界模型预测“接触”——包括下一刻的触觉信号、滑移风险、操作成败及修正策略。
团队将触觉交互拆解为两层:毫秒级响应的“脊髓式”触觉伺服(百赫兹),与前瞻性的物理推理。为支撑这一方向,戴盟发布全球最大的含触觉全模态数据集Daimon-Infinity,并联合银河通用推出首个触觉评测基准RobOmni。目前行业触觉数据稀缺、对齐难、缺标准,戴盟正系统性攻克“触觉Scaling Law”的基础难题。https://www.qbitai.com/2026/06/428778.html

3-2. Anthropic秘密交表:逼近万亿美金估值,打响AI上市第一枪
AI明星公司Anthropic以9650亿美元估值(超越OpenAI的8520亿)成为全球最值钱AI初创企业,并秘密向美国SEC递交IPO申请,打响AI领域“三巨头上市大战”的第一枪。短短28个月,其年化收入(ARR)从8700万美元飙升至440亿美元,暴涨约5000倍;核心产品Claude Code(AI编程助手)上线仅一年,已贡献超半数收入,覆盖Netflix、Salesforce等千家企业客户。
更关键的是:它正快速盈利——预计2026年Q2营收将达109亿美元,首次实现5.59亿美元营业利润。与OpenAI仍依赖个人用户订阅不同,Anthropic 85%收入来自高粘性、高客单价的企业合同。这场“抢跑”,不仅是资本卡位,更是AI行业从技术狂想迈向真金白银盈利的成人礼。秋天,或将见证历史性IPO。https://www.ofweek.com/ai/2026-06/ART-201718-8420-30689404.html
3-3. AI音乐独角兽Suno再融4亿美元,估值翻倍至54亿美元,订阅用户超200万
Suno 是一家用AI帮普通人“一句话写歌”的音乐科技公司,最近以54亿美元估值完成4亿美元融资估值半年翻倍,成为全球最贵AI音乐企业。用户只需输入文字(如“80年代复古电子风、带合成器前奏、歌词讲城市孤独”),几秒就能生成完整歌曲。目前它已有200万订阅用户,年营收预计达3亿美元,员工将从200人扩至340人。
投资方包括曾押中OpenAI的Bond Capital等顶级风投,连华纳音乐也已与其达成版权和解并签署授权协议,即将推出可合法引用华纳曲库的新功能。尽管环球、索尼仍起诉Suno涉嫌侵权,但越来越多音乐人私下使用它创作——AI正从“玩具”变成行业新工具。创始人愿景很朴素:让人人都能当创作者,就像当年编程从专家技能变成全民能力一样。https://aitntnews.com/newDetail.html?newId=25854

3-4. 星尘智能估值破100亿,最全投资方名单曝光
星尘智能,这家2022年成立于深圳的AI机器人公司,仅用三年便成长为“中国具身智能第一梯队”代表——三个月内连融三轮(A++、B轮系列),总融资超10亿元,估值突破100亿元。它罕见地同时自研三大核心:AI基座模型、具身操作系统(OS)和全球首个量产的绳驱机器人本体。
创始人来杰出身百度AI与腾讯RoboticsX实验室,坚持“Design for AI”理念,反向以AI需求定义硬件,避开行业“先造壳再塞算法”的老路。产品上,旗舰S系列后,5月推出的T系列起售价仅8.99万元,大幅降低应用门槛;2026年将实现T1机型万台级量产。目前已在科研、零售、工业物流等场景完成千台真实交付,并采用“L2遥操+L4模型”双轨策略,兼顾落地效率与长期进化。https://view.inews.qq.com/k/20240718A065WA00

写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评
