26年4月22日，全球AI资讯约15条：月之暗面Kimi K2.6 发布代码能力对标 GPT-5.4、剂泰科技——中国AI+药物递送第一股通过港交所聆讯等

发布时间：2026-04-21来源：新智讯

关注后加星: 早上七点钟, 全球AI动态在手中

昨日，AI领域发生了多项重要事件和进展，共计约15条汇总如下。

AI应用进展和演化

1-1. 月之暗面最强模型 Kimi K2.6 发布并开源，代码能力对标 GPT-5.4

月之暗面正式开源新一代大模型Kimi K2.6，主打“更懂办公、更会写代码、更能自主干活”。代码能力显著提升：内部测试得分提高约20%，可连续编码13小时、处理超4000行代码，支持Python、Go、Rust等主流语言。AI智能体能力大幅增强——最多可调度300个子智能体并行协作，完成高达4000步的复杂任务；在OpenClaw等框架下，甚至能5天无人干预自主运行。

设计方面，生成网页和Web应用的视觉效果更佳，在前端评测中明显优于Gemini 3。新增“Skill”技能系统，支持将Word/PPT等Office文档一键转为可复用AI技能，内置上百个官方推荐技能。基准测试显示，K2.6在SWE-Bench Pro等权威榜单上，表现持平或超越Claude Opus 4.6等顶尖闭源模型。
https://www.1ai.net/52317.html

1-2. 史上首个被奥斯卡公开支持的AI，终于来了！Utopai模型又被刷屏了

Utopai Studios（原生AI影视工作室）正掀起一场电影制作革命！去年营收达1.1亿美元，近日凭借全新AI视频平台“PAI”引爆全球：首次实现3分钟连贯叙事、4K分辨率、最多16个镜头一键生成——角色不崩脸、场景不跳变、光影与剪辑节奏如专业大片。这突破了AI视频长期卡点的“一致性”难题（此前多数工具连5秒单镜头都难保风格统一）。

更关键的是，它不是零散工具，而是覆盖剧本解析→角色锚定→分镜生成→多镜头连贯输出→自然语言编辑→专业格式导出的全链路系统，被硅谷比作“AI时代的皮克斯”。奥斯卡最佳编剧罗杰·阿瓦瑞公开盛赞其“跨越式突破”，成为首个获顶级电影人背书的AI视频平台。NBA巨星哈登已用它创作个人IP短片。
https://aitntnews.com/newDetail.html?newId=24284

1-3. GPT-image-2 : OpenAI推出的下一代原生图像生成模型

GPT-image-2（代号“Spud”）是OpenAI于2026年4月推出的全新图像生成模型，彻底告别传统扩散架构，采用自回归多模态设计，堪称AI绘图的里程碑升级。它最突出的能力是近乎完美的文字渲染——支持中日阿等多种语言、繁体字、书法及长句排版，字符准确率远超前代；同时具备像素级精准编辑能力（成功率94%），用自然语言就能局部改色、换物，不破坏光影结构。

模型内置世界知识库，能准确还原古建筑细节、品牌Logo、人体解剖图等，事实准确性提升18.2%。原生输出最高4096×4096分辨率（4K），生成仅需约3秒，并可直出带条形码、出血线、交互UI的生产级文件。目前正向ChatGPT Plus/Pro/Team用户灰度开放，API商用接口即将上线。
https://aiguide.cc/22139/

1-4. 技术深度揭秘｜云知声U1-OCR架构升级 + API 开放，重构 OCR 3.0 时代

云知声近日正式发布U1-OCR——首个工业级文档智能基础大模型，标志着OCR技术迈入“3.0时代”。与传统OCR只重文字识别不同，U1-OCR聚焦真实业务痛点：不是“认不认得清字”，而是“能不能读懂版面结构、理顺阅读顺序”。

针对多栏报纸乱跳、数独题文错配、图文混排错位等典型问题，它摒弃老旧的NMS（非极大值抑制）方案，首创“统一结构假设池精修”架构，将区域定位、保留决策与顺序推理三者协同优化。实测显示：在OmniDocBench和D4LA两大权威数据集上，结构理解F1达96.23和93.93，均居榜首；阅读顺序恢复误差（Read Order Edit）低至0.024，显著优于主流竞品。
https://www.qbitai.com/2026/04/403836.html

1-5. 跨维智能DexWorldModel斩获榜首，世界模型真正的考场在机器人执行里

身智能正经历一次关键转向：从“会看会说”的视觉语言模型（VLA），迈向真正能指挥机器人干活的“世界模型”。当前许多所谓世界模型只在视频生成榜单上得分高（如FVD、画质），但实测发现：视觉质量与真实任务成功率相关性极低（Pearson r=0.36），甚至画得最逼真的Veo 3.1在机器人任务中提升有限。

跨维智能推出的DexWorldModel正是针对这一痛点设计：它不比谁“生成更美”，而专注让机器人真机跑通任务。在权威仿真基准RoboTwin上，其平均成功率高达94.00%；长时任务内存占用压至常数级，端到端延迟降低约50%；更实现零样本Sim2Real——纯仿真训练，直接在真实机器人上完成四项复杂操作，表现反超部分依赖真机微调的强基线。
https://www.qbitai.com/2026/04/403777.html

项目主页：https://dexforce.com/embodichain/index.html

1-6. Gemini 3.1 Flash TTS : 谷歌推出的文本转语音模型

Gemini 3.1 Flash TTS是谷歌DeepMind于2026年4月推出的全新文本转语音模型，主打“像导演一样指挥声音”。它支持70多种语言（含美式、英式等细分口音），首创“音频标签”技术——用户只需在文本中插入类似`<emotion>兴奋</emotion>`或`<voice>侦探张明</voice>`的指令，就能精准控制情绪、语速、停顿甚至角色音色。

相比传统TTS的机械朗读，它真正实现了“语音表演”。模型采用原生音频架构，跳过中间转译环节，延迟降低40%，并内置SynthID水印保障AI内容可溯源。在权威测试中，它以90.8%的复杂指令执行率和1211分高分位列TTS排行榜第二。目前可通过Google AI Studio免费试用（含API导出），Workspace用户可在Google Vids中一键生成视频旁白。
https://aiguide.cc/22148/

1-7. Audio Flamingo Next : 英伟达等开源的音频语言

Audio Flamingo Next（AF-Next）是英伟达与马里兰大学联合推出的开源大型音频语言模型（LALM），基于Qwen-2.5-7B构建，专攻语音、环境音和音乐的深度理解。它最大亮点是原生支持长达30分钟音频输入（远超同类模型约3分钟的限制），并拥有128K token超大上下文窗口，可完整解析10分钟音频语义。

在20项基准测试中全面领先开源竞品，甚至在高难度MMAU-Pro上超越Gemini 2.5 Pro。其核心创新是“时序音频思维链”，让模型推理步骤精准锚定到音频时间戳，大幅提升讽刺识别、情绪判断等复杂任务准确率。AF-Next提供三个轻量变体：Instruct（通用问答）、Think（时间敏感推理）、Captioner（密集描述生成）。
https://aiguide.cc/22122/

1-8. 8岁男孩爬山识草预判山下藏金矿与AI给出的结果高度吻合

辽宁大连庄河一名8岁男孩随家人上山挖野菜时，认出大片问荆草，脱口而出“山下有黄金”。原来他从科普中知道，问荆草素有“天然探金草”之称——其根系能分泌有机酸，活化土壤中难溶的金离子并富集吸收，因此常与金矿伴生。父亲用AI拍照识别，确认是问荆草；随后又捡到闪光的云母石块，进一步佐证成矿环境。

当地自然资源部门专家实地核实后确认：视频中确为问荆草与云母，结合区域地质背景（大连历史上确有金矿开采记录），初步判断该山“大概率含金”，但最终需化学分析定论。目前相关部门已介入勘探。故事既展现了科学知识在生活中的妙用，也折射出基层科普的成效——一个孩子，凭所学点燃了一座山的勘探可能。
https://www.chinaz.com/2026/0421/1747777.shtml

AI大模型算法、赛事和会议

2-1. 谁能通过真实世界考验？ATEC2026发起具身智能“图灵测试”

ATEC2026“真实世界极限挑战”是一场面向具身智能的里程碑式赛事，堪称具身智能领域的“图灵测试”。它不比炫技，而考真本事：让带臂足式机器人走出实验室，在开放、动态、非结构化的真实环境中连续完成复杂任务。

赛事分三阶段：线上仿真（含“机器人徒步”“桌面整理”双赛道）、三地线下预选赛（上海、香港、匹兹堡），以及12月在香港举行的终极决赛——在户外越野场景中完成越障、垃圾拾取与投放、环境改造、自主搜索等综合任务。核心评测聚焦“行走、操作、改造环境”三大能力闭环，强调长时序、稳定性与跨环境迁移能力。自2020年创办以来，ATEC已吸引近5000支队伍、200所高校参与。
https://www.qbitai.com/2026/04/403753.html

2-2. 狂跑一万帧丝滑不崩！拿着几十块单摄走一圈，整栋楼3D地图建好了

LingBot-Map是中国团队蚂蚁灵波开源的一款革命性流式3D重建模型，仅用几十元的普通RGB摄像头，无需激光雷达或深度传感器。它在万帧长序列中保持稳定——内存占用仅约7万个Token（传统方法需500万），增长速率压缩80倍，彻底解决“边看边建”中的遗忘与爆内存难题。

实测显示：在牛津校园数据集上轨迹误差仅6.42米（第二名18.16米）；户外Tanks & Temples误差低至0.20米；室内7-Scenes达0.08米，全面超越离线方法和传统SLAM。更惊艳的是，它能在全黑走廊、AI生成卡通视频等极端场景下稳定运行。该模型与LingBot-Depth协同，首次实现“看清→理解→行动”的全栈具身智能闭环，并以Apache 2.0协议完全开源，已吸引全球120万人关注。
https://www.163.com/dy/article/KR1K7SNT0511ABV6.html

2-3. 「压缩，就是你所需要的全部」！菲尔兹奖得主Michael Freedman新作揭开数学真相

菲尔兹奖得主迈克尔·弗里德曼提出一个颠覆性观点：数学的本质不是严密推演，而是信息压缩——人类3000年来做的，就是不断发明“宏”来浓缩复杂性。从古巴比伦的位值记数法，到现代微分方程中一句“向量丛截面的芽层”，背后都隐藏着十几层抽象。

他团队分析Lean数学库mathlib（约50万行代码）发现：一个仅600个token的简洁命题，展开后竟达10¹⁰⁴字符——比古戈尔（10¹⁰⁰）还大！这种惊人压缩比（超10¹⁰⁰倍）揭示了数学的“软性”本质：它不靠穷举，而靠直觉筛选可压缩结构。弗里德曼指出，AI当前依赖暴力搜索，而人类数学是多项式增长的、高度可压缩的系统；未来人机协作的关键，是共同绘制“数学地形图”。
https://zhuanlan.zhihu.com/p/2029631387150369999

AI人才和资本动态

3-1. 库克谢幕，特努斯挂帅苹果4万亿帝国！ASI时代第一刀砸碎「龙虾壳」

苹果迎来历史性交接：2026年9月1日起，蒂姆·库克正式卸任CEO，转任执行董事长；50岁的硬件老将约翰·特努斯（John Ternus）接棒，成为苹果第三任CEO。库克执掌15年，带领苹果市值从3500亿美元飙升至峰值4万亿美元，但AI领域明显掉队——Siri历经8年重构仍未达标，原AI负责人被架空离职，2025年底更与谷歌达成重磅合作：每年支付约10亿美元，用Gemini模型“救场”下一代AI功能。

特努斯扎根苹果25年，主导iPhone Air、Vision Pro硬件研发，以工程师背景著称，被视为扭转“重运营、轻创新”困局的关键人选。他上任后立即将硬件大权交予自研芯片功臣Johny Srouji，并面临最紧迫考题：今年6月WWDC发布的iOS 27能否兑现端侧AI承诺？
https://www.163.com/dy/article/KR1DJS7G0511ABV6.html

3-2. 「AI药物递送第一股」来了，被低估的万亿医药赛道，处于爆发前夜！

剂泰科技——中国“AI+药物递送”第一股，通过港交所聆讯，成为全球首家以此为核心业务上市的公司。与多数聚焦AI找药的同行不同，它另辟蹊径，专攻药物“最后一公里”：如何把mRNA等脆弱大分子安全、精准送达病灶。短短5年，建成全球规模领先的超1000万种脂质库打造全球首个AI驱动的端到端纳米递送平台NanoForge，将LNP制剂研发周期从数年压缩至2–3个月。

财务上，营收从2023年930万元跃升至2025年1.05亿元，毛利率达98.2%；亏损持续收窄，现金储备达11.3亿元。其核心管线MTS-004（国内首个完成III期临床的PBA治疗药）已进入pre-NDA阶段，并获1亿元首付款+最高18.45亿元里程碑款授权。目前合作全球30多家药企，平台单靶点合同高达1.09亿美元。
https://view.inews.qq.com/k/20260420A04O7600

写在最后

欢迎大家关注、分享、转发本公众号，也欢迎直接与小编联系对接合作～

小问卷：公众号打分点评

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

26年4月22日，全球AI资讯约15条：月之暗面Kimi K2.6 发布 代码能力对标 GPT-5.4、剂泰科技——中国AI+药物递送第一股 通过港交所聆讯等

26年4月22日，全球AI资讯约15条：月之暗面Kimi K2.6 发布代码能力对标 GPT-5.4、剂泰科技——中国AI+药物递送第一股通过港交所聆讯等