AI on Sensor觉醒！建议所有CMOS研究者都去学一下，之后将成为常态！！！

发布时间：2026-06-24来源：传感器技术

领域前沿

视觉算法圈有个共识：模型在实验室跑得再好，一上路就露怯。夜间眩光、运动模糊、低光照噪声——往往不是算法不行，而是从传感器进光那刻起，退化已经发生。

这几年，视觉技术栈正在被重新拼接。神经ISP和任务驱动优化开始打通成像与感知的壁垒，RAW域数据不再只为出漂亮图像，而是直送下游检测与分割。扩散模型和Mamba架构将去噪、超分、去模糊统一为逆问题求解，成为恢复视觉信息的底层设施。可微光学设计则把镜头本身变成可学习参数，与重建网络端到端联合优化。SAM、CLIP、Depth Anything等基础模型，让开放场景的视觉理解不再依赖海量标注。真正卡脖子的是：这些方法散在论文里，怎么从“读到”到“跑通”，再到“部署到自己的硬件上”？

这次五天专题，就是用可复现的代码和工程级数据，把“光子→决策”这条链路从头走一遍。

第一天从CMOS传感器和RAW数据起步，手写简化ISP管线，构建泊松-高斯噪声模型，训练轻量神经ISP，对比传统管线与学习式ISP在PSNR、SSIM和下游检测精度上的差距。第二天将图像复原统一为退化模型下的逆问题，从U-Net、Restormer到扩散模型和Mamba架构，逐一攻克去噪、超分、去模糊和低照度增强。第三天深入计算成像：PSF/OTF/MTF建模、编码孔径与无透镜成像、金属透镜，实现可微光学参数与重建网络的端到端联合优化，并探索AI Agent辅助光学设计。第四天聚焦深度估计与三维感知，覆盖单目、双目、RGB-D、NeRF与3D Gaussian Splatting，在KITTI、nuScenes等数据集上完成自动驾驶感知实战，同时打通机器人视觉SLAM与抓取感知流程。第五天升级到视觉基础模型与部署：SAM/SAM 2交互式分割、CLIP开放词表检测、视觉-语言模型辅助驾驶场景理解、BEV感知与多传感器融合，最后将模型导出ONNX、量化到TensorRT，完成端侧推理验证。五天带走一套“成像→复原→感知→部署”的系统工程能力。

适合谁来？

一线的自动驾驶感知、机器人视觉或ISP算法工程师
每天跟眩光、雨雾、低光照和运动模糊打交道，想从RAW域和神经ISP层面提升感知鲁棒性。课程从传感器噪声建模一路推到任务驱动ISP优化，再到扩散复原和BEV感知，帮你打通“成像质量”与“任务精度”的因果链。

高校视觉、计算成像或机器人方向的PI和研究生
卡在“光学模型如何与网络联合优化”“基础模型如何适配小数据集”“论文实验设计怎么写”。从可微PSF建模到光学-AI联合优化，从SAM/CLIP微调到多模态融合，每一步都是论文方法学模板。

做深度学习出身，想切入“视觉+光学+系统”交叉方向
熟悉Transformer和扩散模型，但不懂Bayer阵列、MTF和ISP管线。第一天手写ISP，第三天建模PSF和可微光学，你会看到去噪网络的感受野如何匹配噪声空间相关性，可微前向模型怎样让光学参数跟随任务损失收敛。

企业研发负责人
评估神经ISP、可微光学或视觉基础模型的落地价值。五天就是一份高密度可行性验证：传统ISP与神经ISP的实测对比，扩散复原的部署代价，BEV感知架构选型，帮你看清哪些模块可以立刻引入，团队需要补哪块能力。

2026光学热门专题

专题一：人工智能大模型光学设计专题

专题二：深度学习计算机视觉与计算成像专题

专题一：深度学习计算机视觉与计算成像专题

学习目标：

1、掌握现代图像信号链：理解 CMOS/CCD 传感器、RAW 数据、Bayer 阵列、噪声模型、白平衡、色彩校正、tone mapping、HDR 和神经 ISP 的基本原理，能够分析图像信号链对自动驾驶感知和机器人视觉任务的影响。

2、掌握视觉逆问题建模：能够将去噪、去模糊、超分辨、低照度增强、压缩伪影消除和光学复原统一表达为退化算子约束下的优化问题，并理解其在夜间驾驶、运动模糊感知、低光机器人导航和复杂环境视觉增强中的作用。

3、掌握主流深度视觉网络：理解 CNN、U-Net、ResNet、Vision Transformer、Swin Transformer、Mamba、扩散模型和深度展开网络的适用场景，能够根据图像复原、语义感知、三维重建、自动驾驶和机器人任务选择合适的网络结构。

4、掌握计算成像基础：能够从 PSF、OTF、MTF、相位调制、衍射传播、编码孔径、无透镜成像角度理解图像形成机制。

5、掌握自动驾驶视觉感知基础：理解车载相机、环视系统、鱼眼相机、LiDAR等多传感器信息的基本作用，掌握车道线检测、目标检测、语义分割、深度估计、轨迹预测和驾驶场景理解的基本技术框架。

6、掌握机器人视觉与三维空间感知基础：理解 RGB-D 感知、双目视觉感知等关键任务，能够分析视觉感知在具身智能系统中的作用。

7、掌握视觉基础模型适配：理解 SAM/SAM 2、CLIP、视觉语言模型、Depth Anything 类深度基础模型在实际任务中的使用方式、局限性和领域适配策略，能够将基础模型迁移到自动驾驶场景分割、机器人目标定位、开放词表检测、视觉问答和视觉语言导航任务中。

8、掌握多模态视觉智能建模能力：理解图像、视频、深度、文本指令和传感器状态之间的多模态融合机制，能够构建面向自动驾驶和机器人系统的感知、理解、预测与决策协同框架。

9、掌握科研复现能力：能够完成数据准备、模型训练、指标统计、消融实验、可视化分析、失败案例诊断和论文撰写，并能够围绕典型数据集开展实验设计。

10、形成系统级视觉工程能力：能够从图像采集、ISP 处理、图像复原、语义感知、三维重建、多传感器融合到模型部署建立完整技术链路，具备面向智能驾驶、机器人视觉、计算成像和工业智能检测等场景开展开发科研创新的能力。

讲师介绍

深度学习计算机视觉与计算成像专题主讲老师：毕业于国家“985 工程”“211 工程”重点高校。目前在国外光学顶尖高校课题组，擅长深度学习、大模型与几何光学、波动光学、电磁建模与计算光学成像的交叉研究领域。近年来发表SCI论文15篇包括：TCI, TMM, TCSVT, TETCI, ICLR等，授权三项发明专利。研究方向包括：深度学习方法、大语言模型、深度光学设计、几何光学、波动光学、图像处理与计算机视觉、物理驱动的光学成像、跨模态成像研究等。担任TCSVT、TCI、SIVP等多个国际期刊审稿人。

专题一：人工智能大模型光学设计专题

学习目标：

本课程旨在系统性培养学生利用大语言模型（LLM）进行光学器件设计的理论基础、系统构建与工程实践能力，具体目标如下：

(1)掌握大语言模型的基本结构与工作原理，包括 Transformer 架构、Token 表达与生成式建模机制；

(2)理解光学结构的语义描述体系，学会将自然语言与结构参数进行映射与对齐熟悉 Prompt 工程的设计原则，具备基于指令生成光学结构的能力；

(3)能够通过多轮对话控制与优化结构设计流程，完成结构→ 仿真 → 优化的循环式学习；

(4)掌握大语言模型与FDTD仿真平台的集成方式，实现语言驱动的自动化全波仿真；

(5)掌握结构数据集构建、多模态建模与语图融合机制；

(6)能够设计并实现语言 + 工具多模块交互的结构设计 Agent；

(7)具备独立开发语言驱动光学设计系统（如 metalens 设计助手）的工程能力；

(8)通过专题项目训练，具备将先进 AI 技术迁移至科学建模与工程优化任务中的综合素养；

(9)培养跨领域系统思维与未来面向自然语言交互的工程设计范式意识。

主讲老师：

人工智能大模型光学设计主讲老师：毕业于国家“985 工程”“211 工程”重点高校。目前在国外光学顶尖高校课题组，擅长深度学习、大模型与几何光学、波动光学、电磁建模与计算光学成像的交叉研究领域。近年来发表SCI论文15篇包括：TCI, TMM, TCSVT, TETCI, ICLR等，授权三项发明专利。研究方向包括：深度学习方法、大语言模型、深度光学设计、几何光学、波动光学、图像处理与计算机视觉、物理驱动的光学成像、跨模态成像研究等。担任TCSVT、TCI、SIVP等多个国际期刊审稿人。

专题大纲

专题一：深度学习计算机视觉与计算成像专题

第一天：现代 ISP、RAW 成像与神经图像信号处理

从图像形成的最前端开始，重点讲解传感器如何将光信号转换为数字图像，以及传统 ISP 与神经 ISP 如何影响后续视觉任务。与原提纲中偏概念化的 ISP 介绍不同，本版强调 RAW 数据结构、噪声统计、可微 ISP 和任务驱动 ISP 优化。

1. 成像传感器与 RAW 数据形成机制

1.1 光电转换与传感器成像原理

讲解 CMOS/CCD 传感器中的光电转换过程，包括光子入射、电子积累、读出电路、ADC 量化、增益控制和动态范围限制。

1.2 RAW 数据结构与 Bayer 采样

介绍 Bayer CFA、RGGB/GRBG 排列、bit depth、black level、white level、坏点、镜头阴影和传感器元数据。

1.3 图像噪声统计建模

讲解散粒噪声、读出噪声、暗电流噪声、固定模式噪声和量化噪声，建立 RAW 域噪声模型。

1.4 RAW 图像退化表达

建立从真实辐照度到数字观测图像的数学模型

2. 经典 ISP 管线

2.1 黑电平校正与坏点修复

讲解 black level correction、bad pixel correction 和 sensor calibration 的基本方法。

2.2 去马赛克与颜色重建

介绍 demosaicing 的传统插值方法、边缘感知方法和学习式去马赛克方法。

2.3 自动曝光与自动白平衡

讲解 AE、AWB、色温估计、灰世界假设、学习式白平衡和多光源场景下的颜色校正。

2.4 色彩校正与色调映射

介绍 CCM、Gamma correction、tone mapping、HDR tone compression 和 display mapping。

2.5 去噪、锐化与局部增强

讲解 RAW 域去噪、YUV 域去噪、锐化、局部对比度增强和噪声放大控制。

3. 神经 ISP 与可微 ISP

3.1 Neural ISP 的基本思想

将传统 ISP 中的多个手工模块替换为端到端神经网络，实现 RAW 到 RGB 的学习式映射。

3.2 可微 ISP 管线设计

将去马赛克、白平衡、颜色校正、色调映射和增强模块构造成可微模块，使 ISP 参数可通过梯度反传进行优化。

3.3 任务驱动 ISP 优化

将 ISP 输出不再仅仅优化图像视觉质量，而是进一步服务检测、分割、深度估计、识别和视频理解等下游任务。

3.4 多帧 Neural ISP 与 Burst 成像

讲解多帧 RAW 对齐、短曝光堆叠、低照度增强、运动补偿和多帧高动态范围成像。

3.5 端侧 Neural ISP 部署

介绍轻量化网络、模型剪枝、量化、ONNX/TensorRT 推理和移动端实时处理。

4. 实践任务

4.1 RAW 图像读取与 Bayer 可视化

使用 rawpy/OpenCV 读取 RAW 图像，显示 Bayer pattern 和线性 RAW 数据。

4.2 手写简化 ISP 管线

完成黑电平校正、白平衡、去马赛克、颜色校正和 Gamma 映射。

4.3 噪声模型仿真与校准

构建泊松-高斯噪声模型，模拟不同 ISO 和曝光条件下的 RAW 噪声。

4.4 Neural ISP 小模型训练

训练一个轻量级 U-Net 或 Restormer-like 网络，实现 RAW 到 sRGB 图像映射。

4.5 传统 ISP 与 Neural ISP 对比

从 PSNR、SSIM、LPIPS、色彩误差和下游检测性能等角度进行评价。

第二天：现代数字图像处理、逆问题建模与深度图像复原

将传统数字图像处理内容从“滤波器和算子列表”升级为“视觉逆问题的统一建模”。图像去噪、去模糊、超分辨、低照度增强、压缩伪影去除和光学复原本质上都可以视为在退化观测条件下估计潜在真实图像。

1. 图像退化与逆问题统一表达

1.1 图像复原的统一退化模型

建立通用观测模型

1.2 常见退化类型

包括噪声、模糊、下采样、JPEG 压缩、低照度、散射、雾霾、传感器失真和光学像差。

1.3 MAP 估计与正则化建模

将图像复原表述为数据一致性项与先验项联合优化

1.4 判别式复原与生成式复原

比较直接回归、条件生成、扩散采样、流匹配和物理约束生成式复原之间的差异。

2. 传统图像处理技术的现代化组织

2.1 空间域滤波方法

讲解均值滤波、中值滤波、双边滤波、导向滤波和非局部均值。

2.2 频域与多尺度分析

介绍 Fourier transform、DCT、小波变换、拉普拉斯金字塔和频带分解。

2.3 边缘、纹理与结构特征

讲解 Sobel、Canny、Laplacian、HOG、SIFT、LBP 和局部结构描述符。

2.4 传统方法与深度先验结合

介绍 Plug-and-Play Prior、RED、深度展开网络和基于优化迭代的复原框架。

3. 深度图像复原模型体系

3.1 CNN/U-Net 复原模型

讲解 DnCNN、U-Net、EDSR、RCAN 等模型在去噪、超分和去模糊中的应用。

3.2 Transformer 复原模型

介绍 SwinIR、Restormer、Uformer 等结构中的窗口注意力、通道注意力和多尺度恢复机制。

3.3 Mamba/状态空间复原模型

讲解视觉状态空间模型在长程依赖、高分辨率图像建模和线性复杂度方面的优势。

3.4 扩散模型复原

介绍 DDPM、DDIM、条件扩散、StableSR、DiffBIR、ResShift 等生成式复原方法。

3.5 流匹配与一致性模型

讲解 flow matching、consistency model 和少步采样复原在高速生成式重建中的价值。

3.6 深度展开与物理约束网络

将传统优化步骤展开为神经网络层，结合数据一致性、先验约束和任务损失进行端到端训练。

4. 评价指标体系

4.1 像素保真度指标

包括 PSNR、SSIM、MS-SSIM 和 MAE。

4.2 感知质量指标

包括 LPIPS、DISTS、FID、KID 和人眼主观评分。

4.3 无参考质量指标

包括 NIQE、BRISQUE、MUSIQ 和 CLIPIQA。

4.4 任务驱动指标

包括检测 mAP、分割 mIoU、深度 AbsRel、识别 accuracy 和跟踪成功率。

4.5 工程部署指标

包括参数量、FLOPs、推理延迟、显存占用、吞吐率和端侧功耗。

5. 实践任务

5.1 构建多类型退化数据

生成噪声、模糊、低分辨率、JPEG 压缩和低照度图像。

5.2 实现传统复原算法

实现 Wiener 滤波、盲去卷积、非局部均值和小波去噪。

5.3 训练深度复原网络

训练 U-Net、Restormer 或 Mamba-like 模型完成去噪/超分/去模糊任务。

5.4 对比判别式与生成式复原

比较直接回归模型和扩散复原模型在保真度、感知质量和推理速度上的差异。

第三天：计算成像、深度光学设计与物理约束视觉建模

将深度光学设计扩展为计算成像与光学-AI协同设计课程模块，覆盖 PSF/OTF/MTF、波动光学传播、编码孔径、无透镜成像、金属透镜、光片显微镜和可微光学仿真。

1. 光学成像基础模型

1.1 几何光学与薄透镜模型

讲解焦距、孔径、景深、视场、放大率、成像距离和基础透镜公式。

1.2 波动光学与衍射传播

介绍 Fresnel diffraction、Fraunhofer diffraction、Angular Spectrum Method 和相位调制。

1.3 PSF、OTF 与 MTF

解释点扩散函数、光学传递函数和调制传递函数对图像质量的影响。

1.4 空间变化与深度相关成像模型

讲解 field-dependent PSF、depth-dependent PSF 和 spectral-dependent PSF。

1.5 光学成像退化表达

建立空间变化卷积模型

2. 计算成像系统类别

2.1 编码孔径成像

通过编码掩膜调制光场，使传感器观测中携带深度、频谱或角度信息。

2.2 无透镜成像

讲解 mask-based lensless imaging、diffuser imaging 和 learned reconstruction。

2.3 金属透镜与超表面成像

介绍亚波长结构相位调制、色散控制、多波长聚焦和 metalens camera restoration。

2.4 光场成像与多视角重建

讲解微透镜阵列、视差估计、重聚焦和深度恢复。

2.5 光片显微镜与三维显微成像

介绍光片形成、扫描机制、多视角采集、体数据重建和显微图像增强。

3. 深度光学设计与端到端联合优化

3.1 光学参数化表示

将曲率、厚度、孔径、折射率、相位分布、纳米柱半径、高度和周期作为可优化变量。

3.2 可微物理前向模型

构建可微 ray tracing、Fresnel propagation、ASM、PSF 卷积和 sensor noise model。

3.3 神经重建与感知网络

引入 CNN、Transformer、Mamba、Diffusion 等模型完成重建、增强、分割、检测或深度估计。

3.4 端到端联合优化目标

建立光学参数与神经网络参数的联合优化

3.5 制造误差与容差感知优化

考虑加工偏差、装调误差、材料色散、温漂、传感器噪声和标定误差对系统性能的影响。

4. AI Agent 辅助光学设计

4.1 需求解析 Agent

将自然语言需求解析为成像目标、分辨率、视场、波长、数值孔径、成本和制造约束。

4.2 光学建模 Agent

自动选择几何光学、波动光学、FDTD、FEM 或 RCWA 建模方式。

4.3 仿真调度 Agent

调用 Ansys Optics、Zemax、COMSOL、Tidy3D、Python 优化器和数据库系统完成批量仿真。

4.4 优化决策 Agent

基于 Bayesian optimization、reinforcement learning、evolutionary search 或 gradient-based optimization 搜索设计空间。

4.5 结果分析与报告 Agent

自动生成 PSF、MTF、spot diagram、重建图像、误差图、性能表格和设计报告。

5. 实践任务

5.1 建立简单 PSF 成像模型

模拟不同焦距、孔径和离焦程度下的 PSF。

5.2 PSF-aware 图像复原

利用已知或估计 PSF 训练图像去模糊/复原网络。

5.3 设计编码孔径或相位掩膜

建立编码光学元件并分析其对重建性能的影响。

5.4 光学参数与网络联合优化

实现一个简化的端到端光学-AI联合优化实验。

第四天：低层视觉、深度估计与三维感知任务实践

第四天聚焦低层视觉和几何感知。低层视觉任务不应只被理解为图像增强，而应被视为恢复视觉信息、提升下游任务可靠性和支撑三维场景理解的基础模块。

1. 深度图像去噪

1.1 图像噪声类型与真实噪声建模

讲解高斯噪声、泊松噪声、传感器噪声、低照度噪声和真实 RAW 噪声分布。

1.2 经典深度去噪方法

介绍 DnCNN、FFDNet、Noise2Noise、Noise2Void 和自监督去噪思想。

1.3Transformer/Mamba 去噪模型

讲解长程依赖建模、多尺度上下文聚合和高分辨率图像去噪。

1.4 面向下游任务的去噪

分析去噪对检测、分割、深度估计、视觉里程计和机器人导航的影响。

2. 超分辨率与去模糊

2.1 超分辨率退化模型

讲解 bicubic degradation、real-world degradation、blind SR 和真实成像退化。

2.2 判别式超分模型

介绍 SRCNN、EDSR、RCAN、SwinIR 和轻量化 SR 网络。

2.3 生成式超分模型

介绍 ESRGAN、Real-ESRGAN、StableSR、DiffBIR 和扩散超分辨率模型。2.4 去模糊任务建模

讲解运动模糊、散焦模糊、光学模糊和空间变化模糊。

2.5 自动驾驶与机器人场景中的模糊问题

分析高速运动、车载振动、机器人机械臂运动、低快门速度和滚动快门带来的图像模糊。

3. 低照度增强与 HDR

3.1 低照度图像增强

讲解 Retinex 理论、Zero-DCE、EnlightenGAN、KinD 和 RAW 域低照度增强。

3.2 HDR 成像与多曝光融合

介绍多曝光对齐、曝光融合、tone mapping 和 ghost artifact suppression。3.3 夜间自动驾驶视觉增强

分析夜间道路、隧道、强逆光、车灯眩光和雨雾天气下的感知退化。

3.4 机器人低光环境感知

讲解仓储机器人、巡检机器人、室内服务机器人和地下空间机器人中的低照度视觉问题。

4. 深度估计与三维感知

4.1 单目深度估计

介绍监督式、自监督式和基础模型驱动的单目深度估计方法。

4.2 双目深度估计与视差计算

讲解 cost volume、stereo matching、PSMNet、RAFT-Stereo 和视差到深度转换。

4.3 RGB-D 与 RGB-T 深度估计

介绍多模态深度估计、热红外辅助感知和恶劣环境下的鲁棒深度恢复。

4.4 NeRF 与 3D Gaussian Splatting

介绍神经辐射场、显式高斯表示、三维场景重建和新视角合成。

4.5 自动驾驶三维感知

讲解车载相机、LiDAR、毫米波雷达、多传感器融合、BEV 表示、3D 目标检测和占据网络。

4.6 机器人视觉与空间感知

讲解 SLAM、视觉里程计、手眼标定、物体位姿估计、抓取感知、语义地图和导航感知。

4.7 视觉基础模型在三维感知中的应用

分析 Depth Anything、Segment Anything、DINO、CLIP 和视觉-语言模型在开放场景三维感知中的作用。

5. 自动驾驶视觉感知专题

5.1 自动驾驶视觉感知系统架构

包括前视相机、环视相机、鱼眼相机、车载 ISP、多相机同步和感知计算平台。5.2 车道线、可行驶区域与交通参与者感知

讲解车道线检测、道路分割、车辆/行人/骑行者检测和交通标志识别。5.3 BEV 感知与多相机融合

介绍 image-view 到 BEV-view 的几何投影、Transformer-based BEV fusion 和 occupancy prediction。5.4 恶劣天气与复杂光照鲁棒性

分析雨、雾、雪、夜间、眩光、阴影、运动模糊对自动驾驶视觉系统的影响。

6. 机器人视觉专题

6.1 机器人视觉系统组成

包括 RGB 相机、深度相机、事件相机、热红外相机、机械臂相机和移动平台视觉系统。

6.2 视觉 SLAM 与定位建图

讲解特征点法、直接法、语义 SLAM、动态场景 SLAM 和视觉-惯性融合。

6.3 物体检测、姿态估计与抓取感知

介绍 6D pose estimation、grasp detection、视觉伺服和机械臂闭环控制。

6.4 具身智能与视觉语言导航

讲解视觉-语言指令理解、场景语义地图、目标导航和机器人任务规划。

7. 实践任务

7.1 图像去噪、超分与去模糊实验

训练或调用一个低层视觉模型，完成质量增强和指标评估。

7.2 低照度增强与 HDR 测试

在夜间或低光数据上测试增强模型，并分析对检测/分割结果的影响。

7.3 单目深度估计实验

运行 Depth Anything 或自监督深度估计模型，输出 RGB、深度图和误差可视化。

7.4 自动驾驶感知小实验

使用 KITTI、nuScenes、BDD100K 或 Cityscapes 数据完成车道线、目标检测或语义分割测试。7.5 机器人视觉小实验

完成 RGB-D 点云生成、相机标定、物体位姿估计或简单视觉 SLAM 流程。

第五天：高层语义理解、视觉基础模型与部署实践

从传统分类、检测和分割任务扩展到视觉基础模型、视觉-语言模型和工程部署。课程重点是让学习者理解高层语义任务如何与低层图像质量、成像退化和基础模型适配相互影响。

1. 图像分类与表征学习

1.1 CNN 到 Vision Transformer 的演进

讲解 AlexNet、VGG、ResNet、ConvNeXt、ViT 和 Swin Transformer。

1.2 自监督表征学习

介绍 MoCo、SimCLR、BYOL、MAE、DINO 和 iBOT 等方法。

1.3 开放类别与少样本识别

讲解 CLIP 表征、zero-shot classification、few-shot adaptation 和 prompt tuning。

1.4 表征可视化与可解释性

介绍 Grad-CAM、attention map、feature embedding visualization 和错误样本分析。

2. 目标检测

2.1 Two-stage 目标检测

介绍 R-CNN、Fast R-CNN、Faster R-CNN 和 Mask R-CNN。

2.2 One-stage 目标检测

介绍 YOLO 系列、SSD、RetinaNet 和 anchor-free detection。

2.3 Transformer 目标检测

介绍 DETR、Deformable DETR、DINO 和 query-based detection。

2.4 自动驾驶目标检测

讲解车辆、行人、骑行者、交通标志、交通灯和障碍物检测。

2.5 机器人场景目标检测

讲解室内物体检测、工业零件检测、抓取目标检测和动态障碍物识别。

3. 语义分割、实例分割与提示式分割

3.1 语义分割基础模型

介绍 FCN、U-Net、SegNet、DeepLab 和 HRNet。

3.2 实例分割与全景分割

介绍 Mask R-CNN、YOLACT、Mask2Former 和 panoptic segmentation。

3.3 SAM/SAM 2 与提示式分割

讲解 point prompt、box prompt、mask prompt、video object segmentation 和 interactive segmentation。

3.4 自动驾驶场景分割

包括道路、车道线、人行道、车辆、行人、交通标志、天空和可行驶区域分割。

3.5 机器人场景语义分割

包括桌面物体、可抓取区域、障碍物、地面区域、语义地图和任务相关区域分割。

4. 视觉-语言模型与多模态理解

4.1 CLIP 类图文对齐模型

讲解图像编码器、文本编码器、对比学习和开放词表识别。

4.2 视觉问答与图像描述

介绍 BLIP、LLaVA、MiniGPT-4 和多模态大模型推理。

4.3 视觉-语言模型辅助自动驾驶

讲解驾驶场景解释、交通事件理解、驾驶意图推理、事故风险描述和自然语言辅助决策。

4.4 视觉-语言模型辅助机器人

讲解语言指令理解、目标定位、场景问答、任务规划和具身智能执行。

4.5 多模态基础模型适配方法

介绍 adapter、LoRA、prompt tuning、instruction tuning 和 retrieval-augmented perception。

5. 自动驾驶智能系统专题

5.1 感知-预测-规划一体化架构

讲解自动驾驶系统中的感知、跟踪、轨迹预测、行为决策和运动规划。

5.2 多传感器融合与 BEV 表示

介绍 camera、LiDAR、radar、IMU、GPS 的融合方式，以及 BEVFormer、BEVFusion 和 occupancy network。

5.3 轨迹预测与行为理解

讲解车辆轨迹预测、行人意图识别、交互建模和风险评估。

5.4 端到端自动驾驶模型

介绍从图像到控制、从 BEV 到规划、世界模型和 VLM-assisted driving。

5.5 自动驾驶安全与鲁棒性评估

分析 OOD 场景、长尾事件、恶劣天气、传感器失效和安全约束。

6. 机器人视觉与具身智能专题

6.1 机器人感知-决策-执行闭环

讲解机器人如何从视觉输入中完成环境理解、目标定位、动作规划和反馈控制。

6.2 视觉导航与语义地图

介绍 visual navigation、semantic mapping、object goal navigation 和 embodied scene understanding。

6.3 操作机器人与抓取感知

讲解 grasp pose detection、6D pose estimation、视觉伺服和接触反馈融合。

6.4 多模态大模型驱动的机器人智能

介绍 VLM、LLM、机器人控制策略、任务分解和语言-视觉-动作对齐。

6.5 机器人部署中的实时性与安全性

分析边缘推理、低延迟控制、环境变化、失败恢复和安全约束。

7. 模型部署与工程优化

7.1 PyTorch 模型导出

讲解 TorchScript、ONNX export 和模型图优化。

7.2 TensorRT 与端侧推理

介绍 TensorRT engine、FP16/INT8 量化、batch 优化和实时推理。

7.3 模型剪枝、蒸馏与轻量化

讲解 pruning、knowledge distillation、NAS 和 mobile-friendly architecture。

7.4 视频流实时处理

介绍多线程读取、GPU pipeline、batch inference、frame skipping 和 latency profiling。

7.5 自动驾驶与机器人部署平台

包括 NVIDIA Jetson、Orin、ROS/ROS2、车载计算平台和机器人边缘计算模块。

8. 实践任务

8.1 图像分类与特征可视化

训练或调用分类模型，并进行 Grad-CAM 可视化分析。

8.2 目标检测与语义分割实验

在 COCO、Cityscapes、BDD100K 或自定义数据上完成检测和分割。

8.3 SAM/SAM 2 交互式分割实验

使用点、框或文本提示完成图像/视频对象分割。

8.4 自动驾驶感知系统小项目

构建一个包含检测、分割、深度估计和 BEV 可视化的简化自动驾驶视觉流程。

8.5 机器人视觉系统小项目

完成 RGB-D 感知、目标检测、语义分割、点云生成和物体位姿估计流程。

8.6 模型部署实验

将训练好的模型导出为 ONNX，并完成 TensorRT 或边缘设备推理测试。

专题二：人工智能大模型光学设计专题

第一部分：光学成像基础与大模型课程导论

第一讲：课程导入与学科发展概览

1.1 光学设计与智能成像的发展背景

1.2 大模型驱动下的光学设计新范式

1.3 课程整体结构与学习目标

1.4 光学设计、计算成像与人工智能的关系

1.5 典型应用场景与案例引入

第二讲：几何光学与成像系统基础

2.1 几何光学基本原理

2.2 成像系统的基本组成

2.3 焦距、孔径、视场与分辨率

2.4 光线传播与像形成机制

2.5 常见成像系统结构分析

第三讲：像质评价与成像退化建模

3.1 点扩散函数与光学传递函数

3.2 调制传递函数与系统分辨能力

3.3 像差、散焦与噪声来源

3.4 成像退化机理分析

3.5 光学系统性能评价指标

第四讲：传统光学设计流程与工具基础

4.1 传统光学设计基本流程

4.2 光学系统参数化表达

4.3 顺序光学设计与优化思想

4.4 光学仿真软件基础认知

4.5 从传统设计走向智能设计

第五讲：大模型在光学与成像中的角色定位

5.1 大模型的基本概念与技术特征

5.2 大模型在视觉与成像任务中的应用

5.3 大模型辅助光学设计的基本思路

5.4 数据、模型与物理先验的协同关系

第二部分：计算成像物理建模与数据智能表征

第一讲：计算成像系统建模与信息编码机制

1.1计算成像范式：光学编码、传感器采样与计算重建

1.2光学编码机制：孔径、相位、衍射、光谱、偏振与压缩采样

1.3 PSF、OTF、MTF与空间变退化模型

1.4前向成像模型、噪声统计与系统误差建模

1.5典型系统：编码孔径、无透镜成像、光场显微、相位恢复与meta-optics

第二讲：图像形成模型与成像反问题基础

2.1连续成像方程与离散观测模型

2.2线性、非线性与盲反问题建模

2.3病态性、不可辨识性与信息缺失分析

2.4正则化、稀疏先验、总变分、低秩先验与贝叶斯解释

2.5梯度优化、近端算法、ADMM、PnP、RED 与展开网络

第三讲：计算成像数据构建、多模态组织与表征学习

3.1成像数据类型：raw data、phase、depth、hyperspectral、event与k-space

3.2光学标定：几何校正、辐射校正、PSF 测量与传感器响应估计

3.3真实退化、仿真退化、数字孪生数据与 sim-to-real gap

3.4多模态数据组织：空间配准、时间同步、尺度统一与跨模态关联

3.5面向基础模型的数据表示：token与degradation prompt

第四讲：深度学习重建网络与生成式成像先验

4.1 CNN、残差网络与局部结构恢复

4.2 UNet、encoder-decoder 与物理一致性重建

4.3 Transformer、Mamba 与高分辨率长程依赖建模

4.4扩散模型、score-based model 与 posterior sampling

4.5 Flow Matching、latent flow prior 与快速生成式反演

4.6测量一致性、不确定性估计与重建幻觉抑制

第五讲：物理建模与数据驱动融合的智能成像框架

5.1 Physics-informed network 与 model-based deep learning

5.2可微光学、可微波动传播与端到端成像系统优化

5.3光学参数、传感器采样与神经重建网络联合设计

5.4 INR、NeRF、3D Gaussian Splatting 与三维计算成像

5.5通用重建模型、视觉基础模型与多模态大模型驱动的成像恢复

第三部分：大模型驱动的光学设计、成像理解与智能工作流

第一讲：面向光学成像任务的大模型能力边界与适配机制

1.1大模型在光学成像中的角色：设计助手、实验助手、分析助手与工程调度助手

1.2光学任务输入接口：图像、视频、参数表、实验日志、仿真结果与设备文档

1.3大模型适配机制：prompt engineering、RAG、tool calling 与 workflow agent

1.4从视觉识别到成像决策：退化诊断、参数推荐与质量解释

1.5大模型能力边界：任务规划、流程调度、结果解释与人工审查

第二讲：视觉语言模型辅助的成像理解、诊断与交互

2.1成像质量的多模态描述：清晰度、噪声、色差、伪影与边缘退化

2.2光学退化诊断：离焦、漂移、曝光不足、散射、色偏与重建失败

2.3图像、参数与文本联合推理：measurement、reconstruction、metadata 与 prompt

2.4Promptable segmentation：SAM、SAM 2、MedSAM 与显微/医学 ROI 标注

2.5成像结果自动报告：参数记录、异常区域、失败归因与复现实验日志

第三讲：指令驱动的成像恢复与跨任务模型调度

3.1指令驱动恢复：文本目标、视觉提示与用户偏好约束

3.2未知退化识别：图像质量诊断与恢复任务自动分类

3.3成像模型调度器：degradation diagnosis、model routing、parameter recommendation

3.4 Operator-conditioned reconstruction的接口化使用

3.5恢复结果可信性判别：异常提示、幻觉检测、日志审计与人工复核

第四讲：大模型辅助光学设计与仿真自动化

4.1光学设计需求解析：目标波长、NA、焦距、FOV、材料、效率与加工约束

4.2光学结构参数化：镜头、相位板、衍射元件、超表面、metalens 与传感器布局

4.3LLM 辅助仿真脚本生成：COMSOL、Lumerical与 PyTorch optics

4.4大模型与可微求解器连接：MCP、API server、代码模板与文档检索

4.5 纳米光子与超表面设计案例：规格生成、参数搜索、结果解释与设计审查

4.6设计一致性检查：单位、边界条件、材料参数、制造约束与多目标冲突

第五讲：典型应用案例

5.1大模型辅助 metalens 设计：规格解析、初值生成、仿真脚本与设计报告

5.2显微成像智能助手：实时质量判断、ROI 标注、采集参数推荐与实验记录

5.3无透镜成像交互式系统：模型选择、参数调节、伪影解释与报告生成

第四部分：大模型参与的光学设计--成像重建联合优化方法

第一讲：光学--算法联合优化的工程化问题定义

1.1从顺序式设计到协同式设计：光学编码、传感器采样与神经重建的一体化目标

1.2联合优化系统链路

1.3大模型参与机制

1.4任务驱动目标：重建质量、机器感知、物理计量、实时部署与制造成本

第二讲：大模型辅助的光学参数化与设计初始化

2.1设计需求结构化解析：波长、NA、FOV、焦距、材料、像素尺寸与加工约束

2.2光学结构参数化：相位掩膜、编码孔径、DOE、自由曲面、metalens

2.3大模型生成设计初值：参数范围、优化边界、初始相位、孔径模板与材料候选

2.4 RAG 增强设计初始化

第三讲：可微光学--传感器--网络联合计算图

3.1可微成像链路

3.2可实现传播模块：卷积 PSF、傅里叶传播、波动光学代理模型与查找表模型

3.3大模型辅助代码生成

3.4可微 PSF 与空间变退化

3.5传感器建模

第四讲：联合损失函数、优化策略与大模型调度

4.1联合目标函数：重建质量、任务性能、物理一致性、制造约束与鲁棒性

4.2任务相关损失：PSNR、SSIM、LPIPS、Dice、mAP、深度误差与相位误差

4.3物理与制造约束：前向重投影、能量守恒、频域响应、PSF 平滑与相位范围

4.4交替优化与双层优化

4.5大模型优化调度

第五讲：系统级案例

5.1 LLM 辅助的相位掩膜--UNet 联合优化

5.2 Tolerance-aware 光学编码设计与扰动鲁棒性评估

5.3 Metalens PSF 数字孪生与空间变重建网络

5.4 面向分类任务的光学前端联合优化

第五部分：基于LLM的计算光学成像

第一讲：Ptychography 多智能体实验分析系统

1.1 Ptychography 成像任务与实验数据特点

1.2 多智能体在扫描位置校正、相位恢复与误差诊断中的分工

1.3 LLM Agent 对重建日志、残差图和频谱异常的联合分析

1.4 基于物理约束的重建参数自动调节机制

1.5 面向实验复盘的自动报告生成与可解释分析

第二讲：无透镜成像 LLM 重建运行管家

2.1 无透镜成像系统的退化模型与重建流程

2.2 LLM 对 PSF、掩膜、传感器噪声和数据格式的统一管理

2.3 重建算法选择、超参数配置与运行状态监控

2.4 重建失败案例的自动定位与修复建议生成

2.5 从单次重建到批量实验的自动化调度

第三讲：LLM 控制的计算显微采集助手

3.1 计算显微采集中的硬件协同与控制变量

3.2 LLM 对相机、光源、位移台和扫描策略的自然语言控制

3.3 基于图像质量反馈的曝光、焦距和扫描路径自适应调整

3.4 面向长时程实验的异常检测与采集中断恢复

3.5 显微采集过程的实验记录、参数追踪与质量评估

第四讲：MCP 工具协议驱动的计算光学求解器接口

4.1 MCP 工具协议与计算光学工具链的接口化思想

4.2 光学仿真、图像重建和数据分析工具的标准化封装

4.3 LLM 对 MATLAB、Python、FDTD、COMSOL 等求解器的统一调用

4.4 基于工具调用链的成像模型构建与实验验证

4.5 面向可复现实验的参数、代码和结果自动归档

第五讲：计算光学成像科研智能体

5.1 从文献阅读到问题发现的科研智能体工作流

5.2 成像模型、实验方案和算法框架的自动生成

5.3 物理先验、数据驱动模型与语言推理的协同设计

5.4 面向论文写作、实验补充和审稿回复的智能辅助

5.5 计算光学科研闭环中的可信性、可控性与局限性分析

往期学员反馈

课程会议完毕后老师长期解疑，课程群不解散，往期会议学员对于会议质量和授课方式一致评价极高！

课程模式与增值服务

课程模式

1、线上授课时间和地点自由，建立专业课程群进行实时答疑解惑。

2、理论＋实操授课方式，由浅入深式讲解，结合大量实战案例与项目演练，聚焦人工智能技术在超表面、光学成像、集成电路领域的最新研究进展。

3、课前发送全部学习资料（上课所有使用的软件、包括丰富的PPT，大量的代码数据集资源）课程提供全程答疑解惑。

4、定期更新的前沿案例，由浅入深式讲解，课后提供无限次回放视频，免费赠送二次学习，永不解散的课程群答疑服务，可以与相同领域内的老师同学互动交流问题，让求知的路上不再孤单！

增值服务

1、凡参加人员将获得本次课程学习资料及所有案例模型文件；

2、课程结束可获得本次所学专题全部回放视频；

3、课程会定期更新前沿内容，参加本次课程的学员可免费参加一次本单位后期举办的相同专题课程（任意一期）！

专题时间

人工智能大模型光学设计专题

2026.08.01---2026.08.02（上午09:00-11:30下午13:30-17:00）

2026.08.04---2026.08.05（晚上19:00-22:00）

2026.08.08---2026.08.09（上午09:00-11:30下午13:30-17:00）

腾讯会议线上授课（共五天课程提供全程视频回放和课程群答疑）

深度学习计算机视觉与计算成像专题

2026.07.18---2026.07.19（上午09:00-11:30下午13:30-17:00）

2026.07.21---2026.07.22（晚上19:00-22:00）

2026.07.25---2026.07.26（上午09:00-11:30下午13:30-17:00）

腾讯会议线上授课（共五天课程提供全程视频回放和课程群答疑）

专题费用

课程费用：

深度学习计算机视觉与计算成像专题

每人每班：¥4980元（包含培训费、资料费、提供课后全程回放资料）

人工智能大模型光学设计专题

每人每班：¥4980元（包含培训费、资料费、提供课后全程回放资料）

早鸟价：提前报名缴费学员可得300元优惠（仅限前15名）

套餐价：

两门同报：同时报名两门课程￥9080元

三门同报：同时报名三门课程￥12880元

年报优惠：可免费学习一年特惠：18880元（可免费学习一整年本单位举办的任意专题）

报名费用可开具正规报销发票（会议费、培训费、资料费等）及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销

报名咨询方式

（请扫描下方二维码）

报名流程：扫码报名→管理员对接→发送正式培训（会议）邀请函→缴费及开具发票。

联系人｜陈老师

咨询电话｜15652523032（微信同号）

邮箱 | 15652523032@163.com

官方网站 |

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。