让大模型理解真实医疗视频，全球首个开源技术方案来了！

发布时间：2026-04-28来源：机器之心

编辑｜冷猫

让 AI 进入医疗领域，是一件需要慎之又慎的事情。

在这种事情上，总有人走得特别激进。今年 2 月，路透社发布了一篇调查报道，标题触目惊心 ——《As AI enters the operating room, reports arise of botched surgeries and misidentified body parts》。

翻译一下，该报道题为《当 AI 进入手术室：手术失误及人体部位识别错误的报告频发》。在美国，医疗设备厂商将不甚成熟的 AI 引入手术场景，但随之而来的误判案例也在不断增加 —— 系统错误识别了人体部位，有机器人辅助手术中出现了本可避免的操作失误。

医疗器械厂商正争相将 AI 整合进其产品之中。尽管支持者坚信这项新技术将颠覆医疗领域，但监管机构收到的关于患者受伤的指控却在持续攀升。

在这些直接应用到临床实践的医学 AI 中，大部分都是以视觉和图像（视频）识别技术作为核心。

在学术界我们很熟悉，视频大模型已经成为了计算机视觉领域最拥挤的赛道之一。虽说有非常大量成熟的视觉识别大模型，但几乎都集中在通用视频领域。当镜头转向手术室，局面陡然变难。我们仍然面临几个巨大的问题：

通用模型无法专精于医疗领域的任务，并且医疗领域并非单一任务种类；医疗领域的相关数据缺失；大模型在医疗实际任务中的表现几乎无法进行统一评估。

不过，让 AI 参与到医疗领域，提高效率，减轻医院和医务人员的负担，是非常有意义的。

我们看到，来自 Global Information 的《2026 年人工智慧（AI）增強型手術影像分析全球市場報告》，也预测了 AI 在医疗领域手术视频分析的增长潜力。

基于人工智能（AI）的手术视频分析市场发展迅速，预计将从 2025 年的 7.3 亿美元增长到 2026 年的 9.1 亿美元，年复合增长率（CAGR）为 24.1%。预计未来几年，人工智能（AI）增强型手术视频分析市场将呈指数级增长，到 2030 年市场规模将达到 21.4 亿美元，年复合增长率（CAGR）为 23.8%。

令人惊喜的是，全球首个，规模最大、性能最强的医疗视频理解领域大模型 —— 元智医疗视频理解大模型 (uAI-NEXUS-MedVLM) 已经正式发布并开源！

这一模型直接解决了在医疗视频领域的任务优化，数据缺失，以及无法评测的三大痛点，敲开了大模型在医疗领域大规模应用的大门。

相关研究成果已获 IEEE 国际计算机视觉与模式识别会议（CVPR 2026）收录。

论文标题：MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
论文链接：https://arxiv.org/pdf/2512.06581
项目主页：https://uii-ai.github.io/MedGRPO/
开源链接：https://github.com/UII-AI/MedGRPO-Code

把「不可解」变成「可解」

在过去，让大模型理解真正的临床医疗视频，几乎是一个「不可解」的问题。

医疗视频不仅涉及图像识别，还需要解决空间、时间和语义的复杂性，手术过程中的每个细节都至关重要，任何疏忽都可能带来严重后果。

空间维度要求模型精确识别手术视频中各个工具、器官和组织的空间位置以及它们之间的关系。
时间维度带来了动态性，手术视频不仅是静态的图像集合，还涉及到不同动作和步骤的时序变化。
语义维度则要求模型具备深厚的医学背景知识，能够理解手术中每个设备和动作的医学意义。

视觉理解的无人区

「空间 — 时间 — 语义」的三重复杂性叠加，即使是 GPT-5.4 和 Gemini-3.1 这样的通用巨头，在面对真实手术视频时几乎全面溃败。

图 1：在 MedVidBench 8 项任务上的主要结果。

在实验中，研究团队比较了 2025 年和 2026 年的开箱即用基线模型（采用 one-shot 提示进行评估）、 SFT 基线，以及在 Qwen2.5VL-7B、Qwen3-VL-4B 和 Qwen3.5-4B 上的完整 MedGRPO 方法。

具体数据很能说明问题。在关键安全视野评估（CVS）任务上，GPT-5.4 的准确率只有 16.4%，Gemini-3.1 为 24.2%，基本上是在瞎猜。在时空动作定位（STG）任务中，预测区域与真实区域的交并比（mIoU）低到可以忽略不计。即便是看起来最「容易」的视频摘要生成任务中，满分 5 分的情况下，GPT-5.4 只拿到 3.976 分，Gemini-3.1 拿到 3.737 分。

联影智能的研究团队选择了一条突破无人区的全新道路。方案可以概括为三件事：造一把标尺、建一套数据、发明一种训练方法。

MedVidBench：全球公共标尺

要走进广阔的无人区，必须有勇于探索的先行者，建立起最初的标尺。

换言之，任何领域的进步都离不开统一的评测基准。在其他研究领域里，ImageNet 定义了图像分类的标准，GLUE 奠定了自然语言理解的基础，但在医疗视频理解领域，长期以来连一把「标尺」都没有。

为了探索，并能够便于后来者的研究，研究团队构建了 MedVidBench，一个包含 53 万余条视频 - 指令对的大规模基准数据集。它覆盖了 8 个专业医学数据源（CholecT50、CholecTrack20、Cholec80-CVS、CoPESD、AVOS、EgoSurgery、JIGSAWS、NurViD），横跨腹腔镜、开放手术、机器人手术及护理操作等核心临床场景。

图 2：MedVidBench 概述。(a) MedVidBench 的高质量数据管理流程。研究团队将专家知识应用于提示构建，并使用 2 个 VLM（Gemini-2.5-Flash 和 GPT-4.1）生成高质量文本。(b) MedVidBench 包含 8 个不同的数据集，总样本量为 532k，涵盖 4 个不同的领域。(c) 不同领域中多样化任务示例。

更关键的是，MedVidBench 不只是「量大」。它包含了了 8 大个不同的数据集，涵盖三个粒度层级：

视频级：理解整段视频的全局信息，包含 VS（视频摘要）、NAP（下一步操作预测）的任务；
片段级：定位和理解特定时间段的内容，包含 TAG（时间动作定位）、STG（时空定位）、DVC（密集视频描述）的任务；
帧级：对单帧画面进行精细分析，包含 RC（区域描述）、CVS（关键安全视野评估）、SA（技能评估）的任务

这种「视频 — 片段 — 帧」的三层架构，完整还原了人类医生观看手术视频时，由粗到细的认知过程：从整体流程出发，再聚焦关键步骤，最后审视细节。

数据质量方面，团队设计了一套严格的质量保障流水线：专家引导式提示词工程 + 双模型交叉验证（GPT + Gemini），确保每一条指令 - 响应对都经过双重把关。数据集分为两个版本 —— 大规模版（53 万样本，用于扩展实验）和标准版（5.15 万样本，任务均衡，用于高效多任务学习）。

GRPO：好上加好

有了数据，下一个问题是：用什么训练方法最好？

我们知道，在特定任务和数据集上训练大模型，直观的方法是通过监督微调（SFT）。

基于 Qwen2.5-VL-7B，团队在 MedVidBench 上进行了 SFT ，结果相当惊艳。在全部 8 项任务中，模型的表现全面超越了 GPT-4.1、Gemini-2.5-Flash、GPT-5.4 和 Gemini-3.1-flash-lite。在仅 7B 参数规模下，CVS 准确率高达 89.4%，是 GPT-5.4 的近 50 倍；而在 TAG@0.3 的 mIoU 上，更是达到了 Gemini-3.1 的 3 倍之多。

但 SFT 的方法是有上限的。为了能够更进一步，团队希望通过引入强化学习（RL），进一步提升模型输出的质量。

然而，标准的 RL 方法在这里遇到了一个致命问题：跨数据集奖励尺度失衡。

不同医疗视频任务的难度差异极大。CoPESD 数据集上的 STG 任务中位 mIoU 约 0.5，而 EgoSurgery 上同样的任务中位 mIoU 只有约 0.12。如果直接用原始奖励信号做 RL 训练，简单任务的梯度会淹没困难任务的信号，导致优化失衡甚至训练崩溃。

实验证实了这一点：不做归一化时，CVS 准确率从 0.894 崩塌到 0.020，STG 的 mIoU 从 0.177 掉到 0.010。

团队的解决方案是 MedGRPO ，核心是两项算法创新：

图 3：MedGRPO 概述。（a）包含跨数据集奖励归一化和医疗 LLM 裁判评估的 MedGRPO 框架。（b）使用和未使用奖励归一化训练的模型之间的训练熵比较。

第一项：跨数据集奖励归一化（Cross-Dataset Reward Normalization）。

关键洞察是中位数公平性：所有数据集 - 任务对的中位性能获得相等的归一化奖励，消除了梯度更新中的偏差。团队引入 Logistic 归一化函数，将每个数据集的中位性能统一映射到相同的奖励值 0.5：

其中 p_50是该数据集的中位性能，IQR 是四分位距。这个设计的精妙之处在于四重保证：

中位公平性：所有数据集在中位性能处获得相同奖励，无论绝对难度如何
平滑梯度：Logistic 函数处处可导，不会出现梯度消失或爆炸
离群值鲁棒性：基于 IQR 缩放，极端异常值不会扭曲整体分布
有界输出：奖励值被限制在 (0,1) 区间内，天然兼容 GRPO 的组归一化机制

第二项：医学 LLM 评审（Medical LLM Judge）。

这是整个工作中最具洞察力的部分。团队发现，传统的语义相似度指标根本无法衡量医学描述的临床正确性 —— 前面提到的例子就是最好的佐证：「工具在上方区域抓取组织」与「抓钳在右上象限分离胆囊管」，语义相似度高达 0.82，但医学准确性天壤之别。

为此，团队设计了基于 GPT-4.1 的比较评分系统，从五个临床维度进行评判：

医学术语精确性：使用的是临床术语还是外行语言？
器械与解剖结构识别：能否准确命名具体工具和人体结构？
描述具体性：给出的是精确细节还是笼统概括？
临床上下文感知：是否理解手术流程和安全规范？
动作与状态准确性：对手术动作和组织状态的判断是否正确？

最终评分采用混合策略：LLM 评审得分占 50%，传统语义相似度占 50%—— 既捕捉临床正确性，又保留整体连贯性。

实际效果

说了这么多，采用了如此完善的数据集，以及团队创新的 SFT + RL 方法，能否彻底改变大模型在医疗视频理解领域只会「瞎猜」的现状呢？

答案自然是肯定的，我们在前文的图 1 中已经能够发现，采用完整训练的元智医疗视频理解大模型在各项任务中成绩远远领先于通用大模型。

图 4：四个模型在 MedVidBench 上 8 个任务的主要结果。

这张多维图像把元智医疗视频理解大模型在 8 个主要任务上的优势表现的非常清晰，非常接近「八边形战士」。

以 GPT-5.4，Gemini-3.1 和 Qwen3.5-4B 为代表的前沿通用大模型表现出非常一致的「偏科」问题，但哪怕在其最擅长的视频摘要任务中，仍然不敌元智医疗视频理解大模型。

图 5：uAI-NEXUS-MedVLM-1.0a-7B-RL在奖励归一化和 LLM 判断上的消融研究。

比数据更能让人直观感受到大模型强大能力的自然是定性对比。在这里，我们选择了画面相对温和的临床护理中「青霉素皮试」操作的示例：

图 6：临床护理区域描述任务实验结果

仔细看，对于大模型而言，对一个高于一分钟时长的视频进行内容识别和理解，尤其是涉及医学专用术语和精准定位的任务，即使对一个未经医学培训的人类而言都是极具挑战性的。

GPT-5.4 描述的内容详细，但出现了「排除残留空气」等幻觉现象。
Gemini-3.1-Flash-lite 结果与 GPT-5.4 有些类似，但其出现了更明显的时间标记错误。
Qwen3.5-4B 则出现了典型的时间定位偏移，并出现描述两次「进行皮内注射」的显著错误。

uAI-NEXUS-MedVLM-1.0b-4B-RL 的表现产生了显著的进化。它不仅准确识别「皮肤消毒」和「皮内注射」的时间位置，并准确描述人体前臂部位，准确表达医疗专业术语，并成功描述出细粒度操作过程。

模型输出已经从表层动作识别，走向对护理操作逻辑的流程化的深度理解。这种提升说明，模型开始逐步建立起更接近临床视角的视频理解能力。

而且 MedGRPO 具备良好的泛化性，甚至在 4B 小模型 + RL 的配置下，多数任务的表现已经超过 7B 的 SFT 基线。这意味着高效的医疗视频理解不一定需要堆参数，正确的训练方法论同样关键。

广发「英雄帖」，共建基础设施

通往医疗视频理解领域的标尺已经确立，向这一领域探索有了评估基准，一切都变得有迹可循。

要想真正让医疗领域的人工智能走向实用，就需要让全行业都来用这把标尺，共同推进医疗领域 AI 的模型进步和基础设施建设。

团队上线了 MedVidBench 公开排行榜（Leaderboard），面向全球开发者发出正式邀请：任何团队都可以提交自有模型的测试结果，由系统基于这一标准自动评分，动态更新统一榜单。

这是一张「英雄帖」，是一个持续运转的全球竞技平台，开发者提交、系统评分、榜单刷新、排名迭代，形成完整的闭环。

排行榜链接：https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

作为领域内首个完善的评测体系，具有深远的意义：

构建可信的统一评测框架。在医疗这样一个极度依赖信任的行业，「自说自话」的 benchmark 没有说服力。只有当全球不同机构、不同技术路线的模型在同一套标准下接受检验时，评测框架本身才能获得公信力。MedVidBench 的公开排行榜正是为此而生，打造一个共同认可的「行业标准」，让所有参与者站在同一条起跑线上。

吸引全球开发者参与挑战。排行榜天然具有竞技属性，竞争是推动领域进步的最有效引擎之一。当一家医院的研究组、一所大学的实验室、一家创业公司的工程师都能在同一个榜单上看到自己的排名，这种开放竞技模式在大模型的经典 benchmark 和 Arena 上已被反复验证。

提升国际影响力与信任度。从更宏观的视角看，一个被全球开发者广泛使用的评测基准和排行榜，意味着打造这一大模型和评测标准的联影智能正在从「中国的一家医疗 AI 公司」转变为「全球医疗视频理解领域的基础设施提供者」。

写在最后

医疗 AI 走到今天，竞争焦点已经不再局限于单个模型、单项指标或某一次榜单成绩，而是技术突破的背后是否具备持续连接真实临床场景、医学数据体系、算法研究和工程落地的综合能力。

在医疗视频理解大模型的领域，元智医疗视频理解大模型首次实现里程碑式的技术突破、其背后的研发团队，正是长期深耕 AI 领域的创新企业：联影智能。

作为联影集团旗下独立运营的子公司，联影智能专注于医疗数字化和智能化方向上的技术创新与商业落地布局，致力于成为全球数智医疗创新引领者。

去年联影智能正式发布了面向医疗垂域、多模态协同的「元智」医疗大模型（简称：uAI NEXUS）。该大模型由文本、影像、视觉、语音、混合五个大模型组成，作为医疗数智化体系的坚实基座，可面向不同医疗场景输出底层智能。本次开源的视频理解大模型正是「元智」视觉大模型的重要能力延展与关键组成部分，进一步拓展了其在动态医疗场景中的理解、推理与决策能力。

为什么联影智能攻克视觉理解这一公认的技术难题？我们认为，这是一个长期的、系统性的投入，常年的技术积累与业内的综合实力的厚积薄发，水到渠成。

第一层：真实临床场景的长期浸润。

联影智能深耕医疗影像与人工智能融合领域多年，在真实临床环境中积累了海量的多模态数据与应用经验，并对医院临床需求有深刻洞察力。这种基于真实医疗体系长期沉淀的积累，让模型从一开始就具备「临床可用性」的基因。

第二层：顶会级算法研究的持续输出。

联影智能的研究团队长期深耕计算机视觉与医学影像分析方向，在手术视频理解和多模态大模型等领域有深厚的技术储备。相关成果已发表于 CVPR、NeurIPS、ICLR、ICCV、ECCV、AAAI 等国际顶级 AI 会议 —— 这意味着团队在方法论层面始终站在领域最前沿。

第三层：从数据源头到模型落地的完整闭环。

这是最关键、也最难复制的一环。团队直接从数据源头入手：对海量公共医疗视频数据进行逐帧级精细标注，精确到每一帧画面中的器械类型、空间位置、手术操作步骤、风险评估等级等核心要素。这种近乎严苛的高颗粒度、多维度标注模式，使模型从训练的第一天起就建立起强大的视觉理解基础，并逐步构建出一套覆盖多场景的「感知 — 推理 — 决策」完整能力体系。

通用大模型在互联网文本和图像上攻城略地的同时，手术室里的那台摄像机仍在静静地记录着一切。在这里，语言的华丽毫无意义，唯有毫米级的精度和对生命的绝对严肃才是金标准。

未来，元智医疗视频理解大模型也有潜力深入融合具身智能，成为打通医疗影像、临床决策与物理执行的智能枢纽。形成「视觉感知 - 逻辑推理 - 物理执行」的完整能力闭环，推动复杂医疗操作迈向全面数字化、结构化与智能化。

医疗 AI 的落地是一场接力赛。联影智能把模型和数据开源，把「接力棒」递到了全行业手里。毕竟，手术刀尖上的事，只有全行业一起努力，才能让 AI 真正从冷冰冰的论文数据，变成手术室里那盏照亮生命的「无影灯」。

参考链接：

https://www.reuters.com/investigations/ai-enters-operating-room-reports-arise-botched-surgeries-misidentified-body-2026-02-09/

https://www.gii.tw/report/tbrc1939265-artificial-intelligence-ai-enhanced-surgical-video.html

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。