196 篇多模态融合论文开放下载!
在当前大模型主导的时代,还有哪些具体的多模态融合研究方向比较有潜力?
答案就藏在这196篇论文里!
我从今年最新收录的顶会(CVPR/ICLR/AAAI/IJCAI)以及前沿高分文献中,系统梳理了196篇多模态融合论文,并按照基础→架构→应用→方法论四大类主流创新路径完成了精细分类。
此外,我还特意整理了两个补充模块:入门必读+多模态代码库。无论你是想冲顶会顶刊,还是想快速入门,抑或是想在算法岗面试/晋升前补齐技术栈,这份资料都足够应对!
推荐对多模态融合方向感兴趣的同学人手一份。

扫码添加小享,回复“多模态融合25”
免费获取全部论文+经典模型+代码库

以下是部分论文简析:
【CVPR 2026】SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
研究方法:论文提出SpatialStack 分层级多模态融合框架,针对现有视觉语言模型3D空间推理不足的问题,将多尺度3D几何特征与视觉、语言特征在模型各层同步对齐融合,替代传统浅层或后期特征融合,让模型同时捕获精细几何结构与全局语义信息,大幅提升3D空间理解能力。

创新点:
提出SpatialStack分层融合框架,在模型全层级渐进对齐视觉、3D几何与语言特征,替代传统后期融合。 将多尺度几何特征与语言主干逐层堆叠同步,让模型同时兼顾局部几何精度与全局语义理解。 基于该框架构建VLM‑SpatialStack,在多项3D空间推理基准上达到SOTA,形成可扩展的多模态物理AI设计范式。

研究价值:SpatialStack为3D视觉语言模型提供了分层多模态融合新范式,有效解决3D空间推理能力不足的问题,大幅提升精细几何与全局语义理解,为下一代具身物理AI系统奠定可扩展的技术基础。
【AAAI 2026】Multimodal Forecasting for Commodity Prices Using Spectrogram-Based and Time Series Representations
研究方法:论文提出SEMF多模态融合预测框架,先把商品价格时间序列转换成Morlet小波频谱图,用Vision Transformer提取频域视觉特征,同时用Transformer 编码金融与宏观外生变量的时序特征,最后通过双向交叉注意力模块融合两种模态特征,提升商品价格预测的准确度与稳定性。

创新点:
提出SEMF多模态融合框架,将时序信号转为频谱图,实现频域视觉特征与时域时序特征的联合建模。 采用Morlet小波时频变换配合Vision Transformer,有效捕捉金融时序中的多尺度、频率敏感模式。 设计双向交叉注意力模块,在保留各模态独有特征的同时,精准建模跨模态关联以提升预测效果。

研究价值:研究通过频谱与时序特征融合的方式,精准捕捉复杂金融时序中的多尺度规律与跨变量依赖,显著提升商品价格预测精度与稳定性,为多变量时序预测提供了有效且通用的新思路。
扫码添加小享,回复“多模态融合25”
免费获取全部论文+经典模型+代码库

