周末文摘 | “希望区域”方法用于临床试验样本量重新估计的一般考虑

发布时间：2026-05-23来源：中国食品药品监管杂志

引用本文

王景朝,唐智敏,潘建红*.“希望区域”方法用于临床试验样本量重新估计的一般考虑[J].中国食品药品监管,2026(4):34-39.

“希望区域”方法用于临床试验样本量重新估计的一般考虑

Promising Zone Method for Sample Size Re-estimation in Clinical Trials: General Considerations

王景朝

国家药品监督管理局药品审评中心

WANG Jing-zhao

Center for Drug Evaluation, NMPA

唐智敏

国家药品监督管理局药品审评中心

TANG Zhi-min

Center for Drug Evaluation, NMPA

潘建红*

国家药品监督管理局药品审评中心

PAN Jian-hong*

Center for Drug Evaluation, NMPA

摘要 / Abstract

随着适应性设计的发展，基于期中分析数据进行样本量重新估计的方法近年来在国内逐渐受到重视并被广泛采用。在多种能够严格控制总Ⅰ类错误率的非盲态样本量重新估计方法中，由Mehta 和Pocock 提出的“希望区域”方法，因其诸多显著优势而备受关注，但该方法本身也存在一定的局限性。在实际应用中，部分申办者未进行“希望区域”方法的适用性和可行性分析，存在盲目滥用的情况。本文通过文献综述，梳理了“希望区域”方法的优势和局限性，并在此基础上提出实际操作中应注意的关键考虑，以期加深临床试验各相关方对“希望区域”方法的理解，为样本量重新估计方法在实际工作中的科学、合理应用提供借鉴。

The use of sample size re-estimation based on interim data has increasing attention and has been widely adopted in China in recent years as a part of adaptive trial designs. Among the various methods that rigorously control the overall type Ⅰ error rate, the “promising zone” approach proposed by Mehta and Pocock has attracted considerable interest due to its notable advantages. However, this method also has certain inherent limitations. In practice, some sponsors have applied the “promising zone” approach without adequately assessing its applicability and feasibility, leading to potential misuse. This paper provides a literature review summarizing the strengths and limitations of the promising zone method. On this basis, key practical considerations for its implementation are proposed. This work aims to enhance stakeholders’ understanding of the "promising zone" approach and to provide guidance for the scientifically sound and appropriate application of sample size re-estimation methods in clinical trials.

关键词 / Key words

希望区域；样本量重新估计；适应性设计；期中分析；临床试验

promising zone; sample size re-estimation; adaptive design; interim analysis; clinical trial

样本量在临床试验中起着至关重要的作用。样本量通常由治疗效应大小、受试者间变异性、统计功效和显著性水平决定。在设计临床试验时，研究人员通常基于有限的治疗效应大小和受试者间变异性信息来估算样本量。若假设不准确，可能导致试验样本量过少而功效不足，或者样本量过多而造成资源浪费。因此，利用期中分析数据进行样本量重新估计（以下简称样本量重估）作为适应性设计的重要分支，近年来已成为热点。

仅基于期中受试者间变异性估计的统计方法，即盲态样本量重估，并非本文讨论重点。本文聚焦于基于期中结果的非盲样本量重估。此类方法的核心挑战在于如何在最终分析时控制总Ⅰ类错误率，常用方法包括：限制样本量重估的情形［如“希望区域”（promising zone）方法^[1-2]］、调整检验统计量［如加权检验统计量（CHW）^[3]、P 值合并方法^[4-7]］以及调整假设检验的拒绝域或名义显著性水平（如条件误差函数方法^[8-10]、似然比检验^[11-12]）。

在多种总Ⅰ类错误率控制策略中，Mehta 和Pocock 提出的“希望区域”方法^[2]因其诸多显著优势而受到广泛关注^[13-15]。该方法采用未调整的统计分析，便于研究人员操作，且实际操作及结果解释均较为简洁明了。这种未调整的统计分析具有一个重要且优越的特性，即对所有受试者赋予同等权重，体现了“一人一票”的原则。

尽管“希望区域”方法在实际操作中有诸多优势，但其本身也存在一定的局限性。在实际案例中，部分申办者在采用“希望区域”方法进行样本量重估前未进行适用性和可行性分析，存在盲目滥用的情况。因此，本文旨在通过文献综述，梳理“希望区域”方法的优势和局限性，并在此基础上提出一些实际操作中应注意的关键考虑，以增进临床试验各相关方对“希望区域”方法的理解，为样本量重估方法的科学、合理应用提供借鉴。

希望区域”方法简介

“希望区域”方法适用于双臂、多阶段、成组序贯设计的临床试验，涵盖正态分布、二项分布及生存资料终点指标，其样本量调整在倒数第二阶段进行。为便于阐述，Mehta 和Pocock^[2]主要基于两阶段试验设计进行讨论。受试者按序进入试验，并被随机分配至对照组或试验组。研究将在第一阶段后进行期中分析，并基于第一阶段观察到的期中数据计算条件检验效能，以评估是否需要在第二阶段增加样本量。

设n₁、n₂ 和ñ₂ 分别为第一阶段、第二阶段的样本量及第一阶段至第二阶段的样本量增量，Z₁表示第一阶段对应的Wald 统计量。CP (z₁,ñ₂) 表示基于第一阶段观察到的期中数据计算得到的条件检验效能。当条件检验效能过低或过高时，样本量保持不变；但如果条件检验效能处于被认为“有希望”的区间内，则可在预先设定的最大上限范围内增加样本量，即将条件检验效能提升至某一目标水平。“有希望”的区间（域）定义为CP_min ≤CP (z₁,ñ₂)＜1-β。在该区间内，期中结果虽不令人失望，但条件检验效能尚未达到或超过设计阶段预设的非条件检验效能1-β。在此情况下，可考虑增加样本量。

关键问题在于如何确定CP_min。令n₂* 和 ñ₂* 分别代表样本量重估后第二阶段的样本量及第一阶段至第二阶段的样本量增量；Z₂* 为样本量重估后第二阶段对应的Wald 统计量。

若第一阶段的条件检验效能落在“希望区域”内，则样本量会适当增加，以达到目标检验效能1-β，且不超过预先设定的最大样本量n_max。具体而言，新的第二阶段样本量的确定如公式（1）所示。如Gao 等^[16] 所述，样本量的增量ñ₂' (z₁) 如公式（2）所示。第二阶段的Ⅰ类错误定义如公式（3）、（4）所示。为了在不增加Ⅰ类错误的前提下实现样本量的调整，“有希望”的区间（域）定义如公式（5）所示。

根据上述计算，可以绘制条件检验效能CP (z₁,ñ₂) 与阈值b（z₁,ñ₂* (z₁)）的关系，可参考Mehta 和Pocock 发表的Adaptive increase in sample sizewhen interim results are promising:a practical guide with examples中的图2^[2]。该曲线与水平线Z_α=1.96 相交，其中水平线下方的区域即“希望区域”。左侧的交点代表“希望区域”的起点，即CP_min。

基于上述方法，仅在期中条件检验效能落在“希望区域”时增加样本量，传统检验方法仍能够有效控制总Ⅰ类错误率。需要注意的是，用于构造“希望区域”时所用的条件检验效能，需要假设后续（即第二阶段）样本的效应量与期中分析时累积数据的效应量一致。

“ 希望区域”方法的优势

“希望区域”方法的一个重要优势在于，在严格控制总Ⅰ类错误率的同时，能够有效降低试验检验效能不足的风险^[17]。与成组序贯设计或固定样本量设计相比，“希望区域”方法能够显著提升条件检验效能，特别是在期中分析中观察到治疗效应有获益趋势，或时间- 事件试验中存在延迟治疗效应的情况下表现更为突出^[18]。当然，条件检验效能的提升需带来非条件检验效能的提升，其应用价值方能在实际操作中充分体现。

“希望区域”方法在最终分析中采用未调整的统计分析。未调整的统计分析具有一个显著优势，即对所有受试者赋予同等权重，体现了“一人一票”的原则^[19]。Mehta 和Pocock 之所以提倡采用未经调整的分析方法，主要是因其更易于研究人员理解，同时也便于实际操作和结果解释。

有研究提出，“希望区域”方法在早期探索性研究中尤为适用，尤其是在治疗效应尚不明确的情况下^[20]，以及在罕见疾病的临床试验中，该设计具有显著优势^[21]。

“ 希望区域”方法的局限性

近年来，相关文献的一个重要关注点是，“希望区域”方法最终分析时采用未经调整的临界值，这种试验设计效率较低^[22-26]。如Mehta 和Pocock 研究中的图2^[2] 所示，“ 希望区域” 的设定主要围绕Ⅰ类错误控制进行约束，其允许增加样本量的区间并不完全对应于单位信息增益最大的效应区间。有研究发现，增加单位受试者能带来最大检验效能提升的期中分析疗效估计值，实际上位于“希望区域”之外^[27]。该研究通过模拟方法，将“ 希望区域”方法和成组序贯设计、CHW 等方法进行比较，发现在获得相同检验效能的情况下，“希望区域”方法所需的平均样本量更大。

“希望区域”方法中条件检验效能的计算依赖于对后续治疗效应的假设，Mehta 和Pococ^k[2]采用的是基于当前观察数据所估计的疗效，而非设计阶段所使用的假设。Glimm^[13] 指出，使用当前观察到的疗效假设会导致对真实条件检验效能的估计不稳定，且在试验早期波动较大，因此基于该估计进行样本量重估具有一定的不稳定性。

“希望区域”应在试验开始前预先设定，并且必须严格遵守。监管部门对其合规性高度关注，任何偏离均可能导致Ⅰ类错误的膨胀^[28]。此外，Mehta 和Pocock^[2] 给出了最低条件检验效能值（CPmin）。试验开始前，研究人员可以根据需要提高该值，从而缩小“希望区域”的范围，但这可能会降低试验的整体检验效能。

“ 希望区域”方法的操作考虑

相关文献中并未对期中分析时间点给出固定建议，普遍认为其选择需在治疗效应估计的稳定性与样本量调整空间之间取得平衡。Liu 和 Lim 认为^[29]，由于试验早期的治疗效应不稳定，过早进行期中分析会降低“希望区域”设计在弥补样本量不足方面的获益，因此不建议在试验早期进行期中分析。理论上，期中分析越晚，或越接近最小样本量时，设计的效率越高^[30-31]。但同时也需考虑实际操作层面，若在接近最小样本量时才作出决定，实施任何适应性调整都可能会延缓试验招募的进度^[32]。

实际操作中，通常会设置一个样本量增加的最大值（nmax）。有研究表明，当样本量增加超过一定限度后，检验效能的增加会变得非常有限^[33]。同时，需确保最大样本量所对应的效应量仍处于合理且具有临床意义的区间范围内，而不能仅仅为了追求达到统计学显著性而增加样本量。此外，最大样本量的设置通常会考虑试验的成本和资源。由于“希望区域”的下界是基于最大样本量设定的，后者的取值需在试验开始前预先设定，并在整个试验期间保持不变。

部分样本量调整方法不要求实际入组的样本量与根据样本量调整规则推导出的理论样本量完全一致（如CHW、P 值合并等方法），由操作导致的轻微偏差不会影响Ⅰ类错误的控制。相较之下，“希望区域”方法要求实际入组的样本量与根据样本量调整规则推导出的理论样本量完全一致，否则可能影响Ⅰ类错误的控制^[13-14]。当实际入组的样本量与根据样本量调整规则推导出的理论样本量不完全一致时，需谨慎评估该偏差是否会影响Ⅰ类错误的控制。

当考虑将多种样本量重估方法联合使用时，需关注其使用条件是否满足统计假设。有研究表明，当“希望区域”和CHW 方法联合使用时［如在“统计学的希望区域（statistical promising zone）”内进行样本量重估，同时使用CHW 方法进行数据分析］，若研究终点数据不符合正态性假设，会存在Ⅰ 类错误膨胀的风险^[15]。在正态近似可疑但可以采用精确检验的情况下，Lehmacher 和Wassmer^[6]提出的逆正态组合检验统计量可能可以作为替代方法，以控制Ⅰ类错误。

在采用“希望区域”方法时，应同时考虑落入“有希望”区域的概率，以及在该区域内进行样本量调整所带来的检验效能提升。除了“ 统计学的希望区域”外，也可以考虑使用“临床希望区域（clinical promising zone）”，其可定义为从最小临床显著疗效到原计划条件检验效能所对应的治疗效应的范围。该区间可能会使单位样本量的增加带来更大的获益。但需注意，“统计学的希望区域”是基于Ⅰ 类错误控制理论推导得出的，而“临床希望区域”更能体现设计理念。当使用“临床希望区域”时，采用未调整的统计分析方法可能会导致Ⅰ 类错误膨胀，此时需考虑使用基于调整检验统计量的方法（如CHW、P 值合并等方法）。

样本量重估通常是由于试验过程中观察到的疗效不及方案假设的疗效，而因有效性提前终止研究通常是由于试验过程中观察到的疗效优于方案假设的疗效。考虑到试验过程中观察到的疗效具有一定的前后一致性，通常不建议在增加样本量后又因有效性提前终止研究。

基于非盲数据进行样本量调整时，需依靠独立数据监查委员会（Independent Data Monitoring Committee ，IDMC）并遵循适当的流程来保持试验的完整性。知晓调整规则和细则的人员范围必须受到限制。例如，可限定仅撰写样本量重估计划和审批的统计师、IDMC 及其独立统计团队等^[2,34]，可在独立的文件（如IDMC 章程的保密性附件或样本量重估计划等）中详述并设置访问权限。同时，应采取必要的措施，防止IDMC 在向申办者提出建议时提供可以推导出疗效的相关内容（如采用区间调整法调整样本量，即足够大区间的期中分析的疗效估计值对应相同的样本量调整值）。

总结

近年来，全球主要监管机构相继发布与适应性设计相关的指南^[34-37]，其中明确了适应性设计的基本原则，包括：研发计划的充分性、试验设计的充分性、对错误结论的限制、估计的可靠性以及对试验完整性的保持。在试验设计阶段，应充分考虑采用适应性设计的必要性与科学合理性，并评估试验运行的复杂性及其带来的挑战。在采用非盲样本量重估设计前，需评估能否从早期探索性研究中获得可靠的疗效假设，以降低确证性研究中疗效假设的不确定性；同时，应评估与传统成组序贯设计相比，非盲样本量重估能否真正提高统计效率。建议在综合考虑必要性、合理性与操作可行性后，再最终决定是否采用非盲样本量重估。

当研究团队考虑采用非盲样本量重估时，需要对方法本身的统计学特性和具体操作方法有充分理解。以“希望区域”方法为例，其优势在于对所有受试者赋予同等权重，不需要调整统计分析，便于实际操作和结果解释；但该方法统计效率较低，且在操作中需要严格遵守预设的方案，“希望区域”的下界、最大样本量的取值等需在整个试验期间保持不变。在考虑方法本身的统计学特性和操作可行性的基础上，必要时，也可通过模拟研究对不同方法进行比较，以选择最优的统计学方法进行非盲样本量重估，从而提高试验的成功率。

对于复杂的适应性设计，通常需基于模拟和理论推导进行更为谨慎的评估，以保证控制研究的总Ⅰ类错误率。例如，当将“希望区域”方法应用于双重点/ 双人群的研究，或“希望区域”方法与其他适应性设计元素同时存在时，可能会有Ⅰ类错误膨胀的问题，对此需谨慎评估。对于此类复杂的适应性设计，建议与监管部门事先沟通并达成共识。

本文系统梳理了“希望区域”方法的优势、局限性以及实际操作中的关键考量，期望能帮助临床试验各相关方加深对该方法的理解，推动样本量重估方法在实践中得到更加科学、合理的应用。