周末文摘 | 基于风险管理理念设计临床试验数据进展报告


引用本文
李蹊*,缪亚东,高坡,王燕,周敏,杨涛,李高扬.基于风险管理理念设计临床试验数据进展报告[J].中国食品药品监管,2026(3):84-93.
基于风险管理理念设计临床试验数据进展报告
Design and Optimization of a Risk-Based Clinical Trial Data Progress Report
李蹊*
映恩生物科技(上海)有限公司
LI Xi*
DualityBio Inc.
缪亚东
正大天晴药业集团股份有限公司
MIAO Ya-dong
Chia Tai Tianqing Pharmaceutical Group Co., Ltd.
高坡
凌科药业(杭州)有限公司
GAO Po
Lingke Pharmaceutical (Hangzhou) Co., Ltd.
王燕
中山康方生物医药有限公司
WANG Yan
Zhongshan Kangfang Biology Medicine Co., Ltd.
周敏
正大天晴药业集团股份有限公司
ZHOU Min
Chia Tai Tianqing Pharmaceutical Group Co., Ltd.
杨涛
北京鞍石生物科技股份有限公司
YANG Tao
Avistone Biotechnology Co., Ltd.
李高扬
羚研创新(北京)健康科技有限公司
LI Gao-yang
Lingyan InnovationHealth Technology Co., Ltd.
摘 要 / Abstract
随着临床试验数据量的迅速增长,数据科学相关人员在数据清理和数据审核过程中面临着前所未有的挑战。本文介绍了基于风险管理的临床数据进展报告设计方案,从数据质量和数据成熟度出发,将数据管理中的风险进行定性与定量分析,并引入统计分析模块,旨在构建多维化风险评估矩阵,提高数据清理和数据审核效率,助力研究团队及时发现特定数据趋势和潜在监查风险,进而优化临床策略的制订。
With the rapid growth in the volume of clinical trial data, data science professionals face increasing challenges in efficiently cleaning and reviewing clinical trial datasets. This paper presents the design of a risk-based clinical data management progress report. Based on two key dimensions (data quality and maturity), the proposed approach performs both qualitative and quantitative analyses of risks in data management and incorporates a statistical analysis module to construct a multidimensional risk assessment matrix. The framework aims to improve the efficiency of data cleaning and review, assist research teams in promptly identifying specific data trends and potential monitoring risks, and ultimately support the optimization of clinical strategies.
关 键 词 / Key words
临床数据管理;数据进展报告;基于风险的数据质量监查;机器学习;数据分析
clinical data management; data management progress report; risk-based data monitoring; machine learning; data analysis
基金项目
国家自然科学基金(81773554)

临床试验数据管理流程是指在从数据产生到最终分析的全过程中, 对临床试验数据进行的系统化收集、清理、验证、存储和归档等一系列标准化操作。其核心目标是确保数据的准确性、完整性、一致性,并符合相关监管要求, 以支持临床试验的科学性和合规性[1]。数据管理是临床试验主要的质量控制活动之一, 国际人用药品注册技术协调会(The International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)发布的《E6(R3):药物临床试验质量管理规范技术指导原则》[E6(R3): Guideline for Good Clinical Practice,以下简称ICH E6(R3)] 指出数据管理需要数据科学家/ 数据管理员及时对累积数据进行评估。数据清理和数据审核是数据管理环节中的重要工作之一,常用的工具是数据进展报告,其将数据收集的进展和数据最新的状态传递给项目组,让研究团队通过数据累积的趋势了解试验的进展。基于风险的质量管理(risk-based quality management,RBQM) 是一种前瞻性的方法,通过识别、评估和控制风险来确保临床研究数据的质量和可靠性,强调通过前瞻性风险评估和动态监控,优化临床试验数据管理的效率和合规性。将RBQM 引入数据进展报告设计中,可定期跟踪、评估和沟通数据状态,识别关键数据风险点(如源数据缺失、录入错误等),从而确保风险可控、质量透明和决策高效。基于以上设计理念,本文提出通过贯彻RBQM对数据管理过程进行优化的目标,在数据进展报告中定义风险控制的具体关键衡量指标,从而定期监测风险优化数据管理流程。

01
基于风险的数据进展报告概述
数据管理生命周期如图1 所示。在数据管理生命周期中,主要存在2 类风险,一是数据采集阶段的风险,如源数据记录不规范等;二是数据处理阶段的风险,如数据问题未被识别、数据清理过度等。其中,数据审核和数据清理作为数据管理环节的核心环节,是保证数据质量的关键步骤。数据进展报告作为串联数据清理和数据审核的纽带,与二者共同构成了数据质量控制的闭环系统。具体而言,数据进展报告发挥“指挥塔”的作用,通过各种数据衡量标准评价数据风险、协调清理与审核优先级顺序,而数据清理属于执行层面,数据审核则如同质量闸门,三者协同形成“监控-清理- 验证- 反馈”的螺旋式质量提升循环,如图2 所示[2]。基于风险的数据管理进展报告可以助力研究团队制订更加合理的数据清理计划和数据审核计划,洞察目前存在的数据问题以及数据发展趋势,从而及时调整临床项目开发策略,确保数据满足统计分析的要求[3]。



02
基于风险的数据进展报告设计考量
基于风险的数据进展报告设计的核心原则是风险导向性原则,即以风险识别、评估和监控为核心框架,突出高风险领域的数据表现。主要考量以下2 个方面:①数据质量。主要考量数据的正确性,是否能够按照数据录入指南准确录入数据库。②数据成熟度。主要考量目前收集到的汇总数据是否能达到统计分析的要求。如何监测数据录入进度并评估数据质量是基于风险的数据进展报告的设计核心,且要求评估考量的维度是可衡量的。本文将分别介绍这2 个方面的衡量标准设定,并通过衡量标准对数据管理中的风险进行定量和定性分析。
2.1 数据质量的衡量标准设计
基于风险的数据进展报告需要将数据质量评估进行标准化,通过可定性定量的指标保证评估结果的完整性、准确性、一致性和及时性[4]。基于数据管理流程,数据质量的控制主要集中在数据清理和数据审核阶段,其主要考量点包括数据录入、质疑管理、源数据核查、方案偏离风险核查和外部数据一致性核查5 个维度,具体考量点和衡量标准如表1 所示[5-9]。这些衡量标准可用于构建多维数据模型,以实现对数据状态的实时监控和趋势分析。一旦模型检测到异常情况,可下钻到中心层级进行根因定位,从而及时分发预警信息。






2.2 数据成熟度的衡量标准设计
对数据成熟度进行考量,以确保所收集的数据能够满足统计分析的要求。数据成熟度的评估主要包括以下2 个维度:①项目组层面的入组/ 出组进度。通过评估该进度,确认是否已达到既定样本量要求。②受试者访视进度和数据状态。受试者层面的访视进度可将数据具体呈现,以便监测统计要求的事件数。以受试者记录追溯表为工具,梳理各个受试者的当前状态,有助于研究团队更科学地制订合理的数据清理计划和数据锁库计划。具体考量点和设计思路如表2 所示。

在数据清理阶段以及锁库前期,可对数据进展报告进行下钻和深度挖掘,即基于Keras 神经学习模型[9] 进行预测并监视数据活动趋势,预测数据冻结截止日期前每月产生的数据页面数量和产生的数据质疑情况。随后,将预测结果与当前数据活动状况进行差距分析,据此制订一套高效合理的周期性数据清理和数据审核计划,进而提高锁库的成功率。与此同时,可结合数据进展报告的切片操作和指标聚合功能,对数据风险较高的研究中心以及整体风险较高的衡量指标进行密切监控,并采取针对性措施,确保在锁库前能解决所有数据问题。

03
基于风险的数据进展报告统计分析框架
在数据管理进展报告中,除对数据进行汇总和呈现外,还需要借助一些统计分析方法,从数据中提取风险信息并传递给研究团队,使团队能够直观了解数据的核心特征,并对这组数据产生最可能接近“真实”状况的认识。相关统计分析方法主要包括描述性统计分析、趋势分析与时间序列建模,以及风险评估建模。 通过运用上述统计分析方法,可评估各研究中心内部和中心之间的数据趋势,分析数据的特点和质量,识别研究中心可能存在的风险,从而采取更有针对性的措施。
3.1 分中心与总体的差异
对于上述表格中列出的数据质量衡量标准,可计算质量指标的集中趋势(均值、中位数)和离散程度(标准差、四分位距),并生成频率分布表(如严重不良事件的百分位分布情况),以此提示某些研究中心可能存在的风险[10]。一方面,对于可量化的衡量标准,如数据录入率、数据录入时限等,可在项目层面设定一个固定阈值,根据数据偏离该阈值的程度进行风险提示;另一方面,对于计算发生率的指标,包括重大方案偏离发生率、特定伴发事件发生率等,经贝叶斯收缩调整后的发生率估计值可采用分位数法识别离群值,例如,可对高于90% 分位数或低于10% 分位数的情况做出风险提示。
3.2 趋势分析
基于上述列表中近期各中心的数据录入情况及质疑回复情况等衡量标准,按中心层级的受试者所处阶段(筛选期/ 治疗期/随访期),利用长短期记忆网络(LSTM)预测模型[9] 来预测未来一段时间内的数据录入表现和质疑回复表现;同时,也可以采用多变量时序分析方法中的向量自回归模型,分析质疑数量、数据延迟情况以及源数据核查活动之间的相互作用关系。
3.3 风险评估建模
基于上述列表中的衡量标准,可运用聚类分析方法,基于聚类中心距离来识别影响数据质量的关键衡量指标的权重,并参考相关打分规则对各研究中心进行风险评分,具体打分规则如表3 所示。


04
基于风险的数据进展报告应用实践
基于以上理论阐述,并结合ICH E6(R3)[11],基于风险的数据质量管理需要相关方实现重大的思维转变,包括建立批判性思维、加快使用数据可视化等技术。笔者团队通过引入可视化技术,将前文提到的基于风险的数据管理进展报告部署在平台上,实现了数据的实时更新,并通过整体评估和多因素分析来提示研究层面、中心层面或数据特征层面的潜在风险,为风险的监督与评估设定明确的预警信号。
RBQM 的核心思想是将资源集中在最关键的风险领域,而不是对所有中心、所有数据进行均等且地毯式的监查, 所以笔者团队选择将基于RBQM 的数据进展报告应用在多中心、国际化、样本量大、研究设计复杂(如适应性设计)的临床试验项目中。其中的一个实际项目案例是验证某肿瘤药物有效性和安全性的随机、双盲、平行对照的Ⅲ期临床试验,该研究计划纳入800 多例受试者进行长期观察,观察期超过5 年,启动了超过100 家研究中心,这些研究中心分布在全球多个国家和地区。该项目通过商业智能(business intelligence,BI)平台,实现了数据的实时可视化,验证了基于风险管理理念设计数据进展报告的显著优势。在项目实践过程中,通过交通红绿灯图来直观展示各研究中心在既定衡量标准下的风险提示情况,如图3 所示;并基于前文提到的风险评估建模方法,将中心层面的风险进行量化评估,以气泡图的形式呈现,如图4 所示。项目组会定期审核风险评估分数排名前10 位的中心,逐一对这些中心进行风险评估,将风险评估报告记录到风险日志中且制订相应的改进计划。 此外,如果列出的10个中心的风险都集中于某一衡量标准,则需要对该衡量标准进行回溯性监查,并据此调整相应的监查计划。例如,在项目执行过程中,如果这些被标识出的中心均存在数据录入延迟的风险,一方面,可结合前期的数据表现,分析这种数据录入风险是由某种特定原因导致时间序列整体发生变化,还是由趋势、季节性和周期性等因素所引起的;另一方面,还可以基于对未来几个月的数据录入趋势的预测,调整中心人力资源配置和数据清理计划。


在项目运行过程中,项目组尤为关注安全性和疗效性相关事件,所以笔者团队在前文提及的涉及严重不良事件和疗效事件的衡量标准上设置了下钻功能。如果发现标识的中心风险集中在严重不良事件发生率方面,一方面,可借助热力图分析各中心上报的严重不良事件在系统组织分类层面是否存在偏向性,如图5 所示;另一方面,也可运用前文所提到的人工智能算法来识别中心层面是否存在大面积严重不良事件漏报情况,并对预测值和实际值开展差异分析,如图6 所示。如果发现标识的中心风险集中在影响无进展生存期事件数中的死亡率,则需对该中心的所有死亡病例进行二次系统医学审核,提高该中心的监查频率,并安排协同访视。



05
小结和展望
临床数据管理作为临床试验中的一个关键组成部分,对于保障临床试验质量、维护患者安全以及满足监管要求等至关重要。本文总结了基于RBQM 的数据进展报告设计优化考量因素,从数据质量和数据成熟度2 个方面,罗列了影响数据管理流程的风险衡量指标,旨在构建多维风险评估矩阵,从而更有效地监控数据质量。此外,在数据进展报告的汇总和呈现环节,加入了统计分析模块,优化了数据进展报告的风险预警能力,升级了数据质量监控体系,提高了数据管理的效率。
本文的创新性体现在将风险管理理念引入数据管理流程,并通过数据进展报告对数据管理中的风险进行定性和定量分析,再引入统计分析模块优化风险评估的能力,提高了数据清理和数据审核的效率。随着人工智能赋能的数智化技术在临床领域的不断普及,未来可考虑在风险报告中引入动态阈值,以适应不同研究在不同阶段的风险特征变化,也可探索构建风险知识图谱,实现智能推荐控制措施。

第一作者兼通讯作者简介
李蹊,硕士,映恩生物科技(上海)有限公司。专业方向:临床数据管理

【参考文献】略




编辑:向丽
审核:赵燕宜

