2026智源大会议程公开丨从 Token 到世界状态预测，多模态的下一场范式革命

发布时间：2026-05-25来源：智源社区

智源大会是人工智能领域最具影响力的学术盛会，7年来，14位图灵奖得主与全球AI先锋齐聚，成为AI内行人的年度思想坐标。

2026年6月12日-13日，第8届智源大会如期而至。大会坚持“学术硬核”，汇聚200余位顶尖专家学者与40余位AI企业CEO及联合创始人，共同探讨Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题，期待与全球AI同行相聚北京，共同定义下一代智能未来。

多模态论坛论坛丨6月13日上午

2026年，多模态大模型正处于从“感知理解”向“交互生成”跨越的关键分水岭。单纯的图文理解已不再是瓶颈，如何构建具备空间感知、长时序推演与实时交互能力的原生多模态系统，成为迈向AGI的核心挑战。

本次智源大会多模态论坛，聚焦“多模态世界模型与交互式生成”这一前沿命题，直击当前技术演进的三大核心趋势：

1. 打破“表演三难困境”，迈向全双工实时交互：探索如何在高表现力、实时推理与长时身份稳定之间取得突破，从单向内容生成走向支持无限时长流式对话的交互式表演模型（如LPM 1.0），赋予数字角色真正的“生命感”。

2. 从2D到3D，构建空间感知基础模型：突破现有模型对物理世界三维空间理解的局限，探讨如何通过空间感知基础模型的研究，让AI真正理解几何、遮挡与物理规律，为具身智能和三维世界模型奠定底层能力。

3. 技术底座与商业闭环的深度融合：展示从底层多模态大模型（如视频生成、音乐音频模型）到全球化AI产品矩阵（AI时代的Spotify/Netflix）的完整路径，探讨AIGC多模态技术如何在规模化商业落地中实现自我进化。

本次论坛汇聚了来自MIT、Anuttacon、浙江大学、腾讯混元、昆仑万维等全球顶尖机构与企业的学者及技术先锋，旨在探讨多模态技术如何跨越从“看懂世界”到“进入世界并与之交互”的鸿沟，推动视频原生多模态智能体的加速到来。

扫码报名参会

2026北京智源大会倒计时：18 天

论坛主席

王鑫龙，研究员

王鑫龙，主要研究多模态世界模型，本科毕业于同济大学，博士毕业于阿德莱德大学。

李崇轩，中国人民大学高瓴人工智能学院副教授

李崇轩，中国人民大学高瓴人工智能学院副教授，博士生导师。致力于生成模型基础理论、建模范式、大规模训练策略和高效采样算法的研究。带领团队研制扩散大语言模型 LLaDA，系列模型下载量超600万，多项成果部署于 DALL·E 2、Vidu、Seedream 4.0等行业领先大模型，谷歌学术引用1.3万余次。获机器学习领域顶级国际会议 ICLR 2022 杰出论文奖、吴文俊人工智能自然科学一等奖。主持国家自然科学基金青年科学基金B类，入选智源学者、吴文俊优秀青年奖、北京市科技新星。担任IEEE TPAMI 编委和ICLR/ ICML/NeurIPS等国际会议领域主席；作为主编出版《大模型十讲》教材，指导博士生入选国家自然科学基金青年学生基础研究项目、字节跳动奖学金计划等。

论坛主持人

赵敏，南京大学助理教授

赵敏，即将加入南京大学担任助理教授，国产视频生成模型 Vidu 核心作者，入选清华大学“水木学者”计划。研究方向为视频生成与可交互视频世界模型。以第一作者/共同第一作者身份在 NeurIPS、ICML、ICLR 等国际顶级会议发表论文多篇，一作论文引用700余次，累计引用1000余次。提出的视频长度外推方法 RIFLEx 及实时交互生成方法 casual forcing 等，已被 HunyuanVideo、CogVideoX 等主流开源视频扩散框架集成应用，主导相关开源项目累计获得 GitHub Star近3000次。

演讲主题及嘉宾介绍

（按照发言先后顺序）

1. Generative Modeling via Drifting

邓明扬，MIT博士生

邓明扬现为 MIT 博士生，师从何恺明教授，研究方向为生成模型。他高中阶段曾获 IMO 与 IOI 金牌，本科就读于 MIT 数学与计算机科学专业，并曾在 DeepMind、Meta 参与科研实习。2026 年，他以第一作者提出 Drifting Models（漂移模型），从分布漂移的角度探索更高效的生成方法。

2. LPM 1.0：基于视频生成的交互表演模型

曾爱玲，Anuttacon研究员

曾爱玲，Anuttacon研究员，主导研发面向交互式人物表演的实时对话视频生成系统LPM 1.0。主要研究方向为以人为中心理解和生成至长时序可控生成的全链路技术体系，其第一作者代表作LTSF-Linear获2023年AAAI会议最具影响力论文，为时序建模与长周期预测领域奠定核心理论基础。在国际顶级学术会议发表论文50余篇，多项开源项目累计GitHub星标超2万枚，谷歌学术引用量达1.4万余次，斯坦福2025全球Top 2%科学家榜单。

3. 面向三维世界模型的空间感知基础模型研究

彭思达，浙江大学研究员

彭思达，浙江大学软件学院“百人计划”研究员，博士生导师，研究方向为三维计算机视觉和计算机图形学。至今在TPAMI/TOG发表9篇论文，在CCF-A类会议发表15篇Oral/Highlight论文，谷歌学术引用9000余次，其中一篇一作论文获得CVPR最佳论文提名，成果获得GitHub数万次stars和2024年中国CCF优秀图形开源软件奖；入选China3DV 2025年度杰出青年学者、斯坦福2024/2025全球Top 2%科学家榜单、2024年中国计算机学会优博（国内计算机领域评选十人）；被苹果公司评为2022 Apple Scholar（亚太地区唯一）。

4. HY World：迈向统一的多模态世界模型

王腾飞，腾讯混元世界模型（HY World）负责人

王腾飞，博士毕业于香港科技大学。现在腾讯负责混元世界模型的研发与落地，从0搭建了混元世界模型的数据与算法研发体系，带领团队先后发布HY World 1.0、2.0、 WorldPlay、WorldMirror等多个模型，并获得开源社区广泛关注。在人工智能顶级期刊和会议上发表论文 40 余篇，谷歌学术引用量 3500 余次，系列开源项目在 GitHub 累计星标 20000 余次，研究工作曾获评 ICCV 和 ECCV 最有影响力论文。

5. 从Skyreels V4到Mureka V9：昆仑万维的AIGC多模态布局

成宇，香港中文大学计算机系副教授，昆仑万维集团首席科学家

成宇，昆仑万维首席科学家，香港中文大学计算机系副教授。从 2018年到2023年，担任微软雷德蒙德研究院的首席研究员。在加入微软之前，是IBM Research & MIT-IBM Watson AI Lab 的研究员。研究涵盖深度学习，特别关注模型压缩和效率、深度生成模型和语言/多模态大模型等。从2021年开始，带领团队和OpenAI团队紧密合作，对GPT系列模型进行了效率、鲁棒性和扩展性优化，推动相关服务和应用的产品化，包括以GPT-4作为主要模型的New Bing、由GPT-3.5提供后台服务的Github Copilot以及由DALL-E-2提供支持的Image Creator。从2023年到2025年，主导或者参与了Minimax abab6.5, M1/Hailuo Video模型, 以及Skywork R1V2/V3, Super Agent等产品和模型。

6. 视频世界模型：从离线内容生成到实时交互

赵敏，南京大学助理教授

圆桌讨论｜从看懂到交互：多模态如何重构世界模型？

圆桌嘉宾：

邓明扬丨MIT博士生

曾爱玲丨Anuttacon研究员

彭思达丨浙江大学研究员

王腾飞丨腾讯混元世界模型负责人

成宇丨香港中文大学计算机系副教授，昆仑万维集团首席科学家

主持人丨赵敏丨南京大学助理教授

即刻扫码注册，参与大会报名

本届大会采用线下与线上模式融合，报名通道已开启，欢迎扫码免费注册。由于线下席位有限，请尽早完成注册，组委会将根据注册次序审核，并在会前发送审核结果通知。

大会官网 https://2026.baai.ac.cn

本文版权归智源社区所有

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。