26年4月22日,全球AI资讯约15条:月之暗面Kimi K2.6 发布 代码能力对标 GPT-5.4、剂泰科技——中国AI+药物递送第一股 通过港交所聆讯等

昨日,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 月之暗面最强模型 Kimi K2.6 发布并开源,代码能力对标 GPT-5.4
月之暗面正式开源新一代大模型Kimi K2.6,主打“更懂办公、更会写代码、更能自主干活”。代码能力显著提升:内部测试得分提高约20%,可连续编码13小时、处理超4000行代码,支持Python、Go、Rust等主流语言。AI智能体能力大幅增强——最多可调度300个子智能体并行协作,完成高达4000步的复杂任务;在OpenClaw等框架下,甚至能5天无人干预自主运行。
设计方面,生成网页和Web应用的视觉效果更佳,在前端评测中明显优于Gemini 3。新增“Skill”技能系统,支持将Word/PPT等Office文档一键转为可复用AI技能,内置上百个官方推荐技能。基准测试显示,K2.6在SWE-Bench Pro等权威榜单上,表现持平或超越Claude Opus 4.6等顶尖闭源模型。https://www.1ai.net/52317.html

1-2. 史上首个被奥斯卡公开支持的AI,终于来了!Utopai模型又被刷屏了
Utopai Studios(原生AI影视工作室)正掀起一场电影制作革命!去年营收达1.1亿美元,近日凭借全新AI视频平台“PAI”引爆全球:首次实现3分钟连贯叙事、4K分辨率、最多16个镜头一键生成——角色不崩脸、场景不跳变、光影与剪辑节奏如专业大片。这突破了AI视频长期卡点的“一致性”难题(此前多数工具连5秒单镜头都难保风格统一)。
更关键的是,它不是零散工具,而是覆盖剧本解析→角色锚定→分镜生成→多镜头连贯输出→自然语言编辑→专业格式导出的全链路系统,被硅谷比作“AI时代的皮克斯”。奥斯卡最佳编剧罗杰·阿瓦瑞公开盛赞其“跨越式突破”,成为首个获顶级电影人背书的AI视频平台。NBA巨星哈登已用它创作个人IP短片。https://aitntnews.com/newDetail.html?newId=24284

1-3. GPT-image-2 : OpenAI推出的下一代原生图像生成模型
GPT-image-2(代号“Spud”)是OpenAI于2026年4月推出的全新图像生成模型,彻底告别传统扩散架构,采用自回归多模态设计,堪称AI绘图的里程碑升级。它最突出的能力是近乎完美的文字渲染——支持中日阿等多种语言、繁体字、书法及长句排版,字符准确率远超前代;同时具备像素级精准编辑能力(成功率94%),用自然语言就能局部改色、换物,不破坏光影结构。
模型内置世界知识库,能准确还原古建筑细节、品牌Logo、人体解剖图等,事实准确性提升18.2%。原生输出最高4096×4096分辨率(4K),生成仅需约3秒,并可直出带条形码、出血线、交互UI的生产级文件。目前正向ChatGPT Plus/Pro/Team用户灰度开放,API商用接口即将上线。https://aiguide.cc/22139/
1-4. 技术深度揭秘|云知声U1-OCR架构升级 + API 开放,重构 OCR 3.0 时代
云知声近日正式发布U1-OCR——首个工业级文档智能基础大模型,标志着OCR技术迈入“3.0时代”。与传统OCR只重文字识别不同,U1-OCR聚焦真实业务痛点:不是“认不认得清字”,而是“能不能读懂版面结构、理顺阅读顺序”。
针对多栏报纸乱跳、数独题文错配、图文混排错位等典型问题,它摒弃老旧的NMS(非极大值抑制)方案,首创“统一结构假设池精修”架构,将区域定位、保留决策与顺序推理三者协同优化。实测显示:在OmniDocBench和D4LA两大权威数据集上,结构理解F1达96.23和93.93,均居榜首;阅读顺序恢复误差(Read Order Edit)低至0.024,显著优于主流竞品。https://www.qbitai.com/2026/04/403836.html

1-5. 跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里
身智能正经历一次关键转向:从“会看会说”的视觉语言模型(VLA),迈向真正能指挥机器人干活的“世界模型”。当前许多所谓世界模型只在视频生成榜单上得分高(如FVD、画质),但实测发现:视觉质量与真实任务成功率相关性极低(Pearson r=0.36),甚至画得最逼真的Veo 3.1在机器人任务中提升有限。
跨维智能推出的DexWorldModel正是针对这一痛点设计:它不比谁“生成更美”,而专注让机器人真机跑通任务。在权威仿真基准RoboTwin上,其平均成功率高达94.00%;长时任务内存占用压至常数级,端到端延迟降低约50%;更实现零样本Sim2Real——纯仿真训练,直接在真实机器人上完成四项复杂操作,表现反超部分依赖真机微调的强基线。https://www.qbitai.com/2026/04/403777.html
项目主页:https://dexforce.com/embodichain/index.html
1-6. Gemini 3.1 Flash TTS : 谷歌推出的文本转语音模型
Gemini 3.1 Flash TTS是谷歌DeepMind于2026年4月推出的全新文本转语音模型,主打“像导演一样指挥声音”。它支持70多种语言(含美式、英式等细分口音),首创“音频标签”技术——用户只需在文本中插入类似`<emotion>兴奋</emotion>`或`<voice>侦探张明</voice>`的指令,就能精准控制情绪、语速、停顿甚至角色音色。
相比传统TTS的机械朗读,它真正实现了“语音表演”。模型采用原生音频架构,跳过中间转译环节,延迟降低40%,并内置SynthID水印保障AI内容可溯源。在权威测试中,它以90.8%的复杂指令执行率和1211分高分位列TTS排行榜第二。目前可通过Google AI Studio免费试用(含API导出),Workspace用户可在Google Vids中一键生成视频旁白。https://aiguide.cc/22148/
1-7. Audio Flamingo Next : 英伟达等开源的音频语言
Audio Flamingo Next(AF-Next)是英伟达与马里兰大学联合推出的开源大型音频语言模型(LALM),基于Qwen-2.5-7B构建,专攻语音、环境音和音乐的深度理解。它最大亮点是原生支持长达30分钟音频输入(远超同类模型约3分钟的限制),并拥有128K token超大上下文窗口,可完整解析10分钟音频语义。
在20项基准测试中全面领先开源竞品,甚至在高难度MMAU-Pro上超越Gemini 2.5 Pro。其核心创新是“时序音频思维链”,让模型推理步骤精准锚定到音频时间戳,大幅提升讽刺识别、情绪判断等复杂任务准确率。AF-Next提供三个轻量变体:Instruct(通用问答)、Think(时间敏感推理)、Captioner(密集描述生成)。https://aiguide.cc/22122/

1-8. 8岁男孩爬山识草预判山下藏金矿 与AI给出的结果高度吻合
辽宁大连庄河一名8岁男孩随家人上山挖野菜时,认出大片问荆草,脱口而出“山下有黄金”。原来他从科普中知道,问荆草素有“天然探金草”之称——其根系能分泌有机酸,活化土壤中难溶的金离子并富集吸收,因此常与金矿伴生。父亲用AI拍照识别,确认是问荆草;随后又捡到闪光的云母石块,进一步佐证成矿环境。
当地自然资源部门专家实地核实后确认:视频中确为问荆草与云母,结合区域地质背景(大连历史上确有金矿开采记录),初步判断该山“大概率含金”,但最终需化学分析定论。目前相关部门已介入勘探。故事既展现了科学知识在生活中的妙用,也折射出基层科普的成效——一个孩子,凭所学点燃了一座山的勘探可能。https://www.chinaz.com/2026/0421/1747777.shtml

AI大模型算法、赛事和会议
2-1. 谁能通过真实世界考验?ATEC2026发起具身智能“图灵测试”
ATEC2026“真实世界极限挑战”是一场面向具身智能的里程碑式赛事,堪称具身智能领域的“图灵测试”。它不比炫技,而考真本事:让带臂足式机器人走出实验室,在开放、动态、非结构化的真实环境中连续完成复杂任务。
赛事分三阶段:线上仿真(含“机器人徒步”“桌面整理”双赛道)、三地线下预选赛(上海、香港、匹兹堡),以及12月在香港举行的终极决赛——在户外越野场景中完成越障、垃圾拾取与投放、环境改造、自主搜索等综合任务。核心评测聚焦“行走、操作、改造环境”三大能力闭环,强调长时序、稳定性与跨环境迁移能力。自2020年创办以来,ATEC已吸引近5000支队伍、200所高校参与。https://www.qbitai.com/2026/04/403753.html

2-2. 狂跑一万帧丝滑不崩!拿着几十块单摄走一圈,整栋楼3D地图建好了
LingBot-Map是中国团队蚂蚁灵波开源的一款革命性流式3D重建模型,仅用几十元的普通RGB摄像头,无需激光雷达或深度传感器。它在万帧长序列中保持稳定——内存占用仅约7万个Token(传统方法需500万),增长速率压缩80倍,彻底解决“边看边建”中的遗忘与爆内存难题。
实测显示:在牛津校园数据集上轨迹误差仅6.42米(第二名18.16米);户外Tanks & Temples误差低至0.20米;室内7-Scenes达0.08米,全面超越离线方法和传统SLAM。更惊艳的是,它能在全黑走廊、AI生成卡通视频等极端场景下稳定运行。该模型与LingBot-Depth协同,首次实现“看清→理解→行动”的全栈具身智能闭环,并以Apache 2.0协议完全开源,已吸引全球120万人关注。https://www.163.com/dy/article/KR1K7SNT0511ABV6.html


2-3. 「压缩,就是你所需要的全部」!菲尔兹奖得主Michael Freedman新作揭开数学真相
菲尔兹奖得主迈克尔·弗里德曼提出一个颠覆性观点:数学的本质不是严密推演,而是信息压缩——人类3000年来做的,就是不断发明“宏”来浓缩复杂性。从古巴比伦的位值记数法,到现代微分方程中一句“向量丛截面的芽层”,背后都隐藏着十几层抽象。
他团队分析Lean数学库mathlib(约50万行代码)发现:一个仅600个token的简洁命题,展开后竟达10¹⁰⁴字符——比古戈尔(10¹⁰⁰)还大!这种惊人压缩比(超10¹⁰⁰倍)揭示了数学的“软性”本质:它不靠穷举,而靠直觉筛选可压缩结构。弗里德曼指出,AI当前依赖暴力搜索,而人类数学是多项式增长的、高度可压缩的系统;未来人机协作的关键,是共同绘制“数学地形图”。https://zhuanlan.zhihu.com/p/2029631387150369999

AI人才和资本动态
3-1. 库克谢幕,特努斯挂帅苹果4万亿帝国!ASI时代第一刀砸碎「龙虾壳」
苹果迎来历史性交接:2026年9月1日起,蒂姆·库克正式卸任CEO,转任执行董事长;50岁的硬件老将约翰·特努斯(John Ternus)接棒,成为苹果第三任CEO。库克执掌15年,带领苹果市值从3500亿美元飙升至峰值4万亿美元,但AI领域明显掉队——Siri历经8年重构仍未达标,原AI负责人被架空离职,2025年底更与谷歌达成重磅合作:每年支付约10亿美元,用Gemini模型“救场”下一代AI功能。
特努斯扎根苹果25年,主导iPhone Air、Vision Pro硬件研发,以工程师背景著称,被视为扭转“重运营、轻创新”困局的关键人选。他上任后立即将硬件大权交予自研芯片功臣Johny Srouji,并面临最紧迫考题:今年6月WWDC发布的iOS 27能否兑现端侧AI承诺?https://www.163.com/dy/article/KR1DJS7G0511ABV6.html

3-2. 「AI药物递送第一股」来了,被低估的万亿医药赛道,处于爆发前夜!
剂泰科技——中国“AI+药物递送”第一股,通过港交所聆讯,成为全球首家以此为核心业务上市的公司。与多数聚焦AI找药的同行不同,它另辟蹊径,专攻药物“最后一公里”:如何把mRNA等脆弱大分子安全、精准送达病灶。短短5年,建成全球规模领先的超1000万种脂质库打造全球首个AI驱动的端到端纳米递送平台NanoForge,将LNP制剂研发周期从数年压缩至2–3个月。
财务上,营收从2023年930万元跃升至2025年1.05亿元,毛利率达98.2%;亏损持续收窄,现金储备达11.3亿元。其核心管线MTS-004(国内首个完成III期临床的PBA治疗药)已进入pre-NDA阶段,并获1亿元首付款+最高18.45亿元里程碑款授权。目前合作全球30多家药企,平台单靶点合同高达1.09亿美元。https://view.inews.qq.com/k/20260420A04O7600

写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评
