临床研究方案设计统计学论文

时间:2022-08-01 10:26:35

临床研究方案设计统计学论文

一、研究设计

研究设计是一系列广泛概念的统称,通常包括适应症(目标人群)的选择、试验的总体设计以及具体研究假设的提出,目标人群是开展试验和建立研究结果的基础,方案中一般通过设置明确的入选和排除标准,对纳入和评价的对象进行严格的界定。总体设计一般是指试验所采取的形式,例如:前瞻性、随机、对照试验,对照的设置是统计学在研究设计中强调的重点,在设置了合理的对照后,还需考虑通过随机和盲法等措施进一步降低研究中潜在的偏倚。另一个设计时的关键点在于,需要将临床的研究目的提炼为统计学的研究假设,并最终通过研究结果对其进行验证,看是否能够实现预期的研究目的。

1.目标人群:研究结果建立的基础至关重要,目标人群直接决定研究结果的外推性,研究中所涉及的人群包括:目标人群、可评价人群和研究人群,目标人群是研究设计所针对的对象总体,但是一项研究不可能将特定疾病或特征的研究对象全部纳入,所以就形成了可评价人群,指在目标人群中有可能被纳入或参与试验的子人群。而最终签署了知情同意并进入研究的,又是这个可评价人群中的一个亚组,至此建立研究结果的基础可能已经与最初的目标人群存在差异,其结果代表性和外推性都可能受到局限。值得注意的是,在一项研究中设定严格的入选/排除标准,其优势在于能够更直接的对所研究的干预进行评价,但其不足就体现于在“高度选择”的人群基础上,所获得结果的外推性可能受到严重影响。而且,在对预期疗效进行估计时,应考虑不同地域或地区人群在人口学指标和病史等特征上的系统性差异,例如:南方和北方,东、中、西部在饮食和生活方式上可能存在不同,这些差异有可能导致不同的治疗效果。除了这些研究对象内在因素可能导致的差异外,地域包括医院、科室间治疗在操作规范上的差异同样会导致的疗效的不同。PLATO(plateletinhibitionandpatientoutcomes,血小板抑制与患者预后)研究中,不同地区阿司匹林维持剂量上的使用差异正是导致其结果存在异质性的原因[1]。这就使得在对研究目标人群进行设定时,需对可能的临床异质性来源进行控制。

2.设置合理的对照:在临床研究中设置合理的对照至关重要[2],引入对照后,可以将由于疾病自然进展、安慰剂作用、伴随治疗以及其他原因导致的治疗效果予以排除,从而对所关心的干预方法进行客观真实的评价。同时,统计上的“向均值回归”现象也会导致在对接受单一干预的患者进行观察时,可能观察到不真实的治疗效果。例如,在研究一种降压药的有效性时,所有患者都接受了试验药物的治疗,通过治疗前后的血压变化评价治疗效果。由于基线时入选的都是高血压者(基线血压测量结果),这些患者的血压值已经偏离了人群的平均水平,在随访时即便药物无效,也可能由于“向均值回归”的现象导致,同一患者在重复测量时的血压会低于首次测量(向人群的平均靠拢)。这一问题,在有对照组存在的情况下,则可予以避免。这里所强调的是“合理的对照”而非“对照组”[3-4],因为在临床研究中对照的形式可以是多样的,例如:单组目标值对照,研究者有必要将目标值对照与患者自身前后对照予以区分,从统计学角度不推荐在临床研究中采取自身前后对照的形式,其原因在于,自身前后对照发现的改变仅停留在有统计学意义的层面,而这一改变的效应大小是否有足够的临床意义,才是一项研究预解决的问题关键。同样,目标值对照与历史对照也有与以上一样的局限性,因为对当前研究而言,上述两类对照均来源于外部。从统计角度,平行的对照组才是最理想的对照方式。

3.随机和盲法:在设置了对照的基础上,还应采用随机和盲法来进一步控制研究评价中潜在的偏倚[5]。随机化分组能够保证试验和对照组间的均衡性,如不采用随机化分组,医师或患者有可能根据病情或其他原因有意向的选择特定的治疗方法,存在组间基线差异的指标就是所谓的混杂因素,例如,上述降压药物试验中,如果发现在试验组基线的血压就已经低于对照,相当于失去了比较的基础。同样,即便采用了随机分组,如果患者知晓所服用的药物是阳性治疗或安慰剂,由于心理作用或对治疗效果的预期,完全可能导致不同的结果,这就要求研究者尽可能的在试验中采用盲法,随机双盲对照试验在单项研究中具有最高的证据级别,其原因正是因为采用了这些避免和降低试验偏倚的措施。临床研究中的随机和盲法其实是广义的概念,随机化不仅应用在治疗分组,同样可以应用于治疗或检查顺序的制定、同一患者存在多处病变时的结果评价(预评价患者水平的结果时可从多处病变中随机选取一处)。盲法除了经典药物试验中的单盲和双盲外,越来越多的研究采用第三方盲法评价的方式,来尽可能避免试验结果评价中的主观偏性,第三方盲法是指由不直接参与研究的人员,在盲态下对试验结果(化验或检查)进行判定,从而减小由于知晓患者分组而可能对结果判读造成的主观影响。第三方盲法与“三盲”是完全不同的概念,“三盲”通常指在对医师和患者设盲的基础上,统计人员在分析过程中也处于“盲态”,以避免在分析时可能有意选择对某一组更为有利的统计方法,三盲可以理解为是在经典双盲的概念基础上进一步的扩展,而第三方盲法则是利用研究“外部人员”的独立性,来尽可能避免评价时的主观偏向。采用核心实验室(corelab)以及设立终点委员会(clinicalendpointcommittee,CEC)都属于第三方盲法的应用实例。

4.研究假设:将研究目的转化为研究假设是最容易被研究者忽视的问题,例如:研究方案中指出,在原发肾小球肾炎的患者中,比较中药与血管紧张素受体拮抗剂(angiotensinreceptorblocker,ARB)在控制尿蛋白水平上的效果,研究者设置了3个干预组,分别为:中药组、ARB组及中药+ARB组。如将研究假设表述为“比较3组间是否有差异”是不恰当的,原因是所设置的3个干预组,两两间比较的预期结果是有区别的。ARB作为临床常规使用的治疗方法是基础的对照组,单纯的中药与其相比,临床预期可能仅为中药能够和ARB达到类似的疗效,这就是统计上的非劣效比较[7];而如果在ARB的基础上进一步联合中药,预期的结果可能是ARB+中药要优于单独使用ARB,这就是统计上的优效性比较。至此,上述问题已经分离出了两个独立的研究假设,即:中药与ARB对比的非劣效假设,以及中药+ARB与ARB对比的优效性假设。如果研究者预对中药+ARB与单用中药的效果进行比较,就会产生第三个假设,当然这个假设的合理性和必要性则需要临床专家予以回答。上述问题还相对简单,如果再增加ARB双倍剂量组和中药+ARB双倍剂量组,使得总的组别数变为5组,这时研究假设的设置将变得更为复杂,任何两组间可能建立起的比较,都需要有具体的研究假设(统计)相对应。此时,如发现无法提出明确的研究假设,可能说明最初的组别设置考虑不周,提示需要考虑删除或者优化组别的设置。提出明确的统计学研究假设,实际上是在帮助研究者理清研究思路,并明确预期可能获得的研究结果。明确研究假设的原因在于,研究结果的判定须与假设相对应,例如之前提到的非劣效假设,研究方案中必须预先指明非劣效界值,这一界值将参与样本量的计算过程,而且,在试验结束后要根据所获得的研究结果与非劣效界值进行比较,通常通过试验组与对照组疗效差值的95%置信区间(如图2所示),对研究是否成功进行判定。通过P>0.05来得出组间治疗效果相当,以及在获得分析结果后再给定非劣效界值的做法都是不正确的。

二、主要终点

研究设计确定后,终点指标的选择也是研究设计的关键,主要终点的设定是研究设计的核心问题,其原因在于,主要终点既是样本量确定的基础,同样也是结果评价时判定研究是否成功的标准。关于主要终点的设定,涉及问题非常广泛,此处仅对几个比较常见的问题予以阐明[6]。首先,选择替代终点还是临床“硬终点”?不同的选择会导致最终设计样本量上的巨大差异。一般意义上,替代终点可在相对更短的观察周期获得,但早期替代终点上显示出的治疗差异是否能够传递到最终的临床终点,是研究者必须要考虑的问题,例如,在肿瘤研究中曾经采用瘤体缩小程度作为疗效评价的指标,但是由于瘤体的缩小与疾病进展及最终的死亡事件相关程度很低,所以目前的抗肿瘤研究已不再采用这一替代指标作为主要终点。替代指标与临床硬终点间关联程度的确认,最好能够通过荟萃分析证实,而且在很多的治疗领域已经存在,被证实且被公认的替代指标。另外,设定唯一的主要终点还是多个主要终点?从统计角度看,更推荐采用唯一的主要终点,因为多终点会导致统计检验的假阳性膨胀问题,如想控制假阳性错误的水平,最终效果是增加研究的样本量规模。所以,尽量选择研究中最为重要、与干预效果最为相关的指标作为主要终点,其他指标都可以算为次要终点。一来可以避免试验设计过于复杂、控制研究总体规模,而且可以增加研究结果为阳性的机会,因为,存在多个主要终点时,如果要求每个终点都达到预设的标准时,才认为研究“成功”,相当于提高了获得阳性结果的难度。预对多个重要指标一并进行评价时,复合终点是另外一种选择,例如:死亡、心梗和卒中这三者的复合就常见于大规模心血管临床试验。把哪些终点进行复合必须要结合临床考虑,复合终点的统计学意义相对明确,通过复合可以提高终点事件的发生率水平,从而在合理的规模下进行研究。假设一项新治疗方法可以比传统方法降低20%的事件率,如果评价的死亡,可能对照的率仅为2%,预证明试验组和对照组间的死亡率差异(1.6%对2%),可能需要几万例的样本。但是,假设复合终点包括死亡和再入院率,同样20%的相对降低,当建立在对照组20%的事件率基础上时,组间的差异则更明显(16%与20%),此时的样本规模可能缩小10倍甚至更多。不过复合终点也会引入特定的问题,因为所复合的终点中每一组分对于最终事件率的贡献程度不同,而本身这些复合在一起的组分其临床重要性也存在差异,如果上述例子中,最终复合终点的差异主要归因于再住院,而死亡率在两组没区别,这一结果可能受到质疑,因为再住院可能受到社会经济等多方面因素的影响,可能对直接的干预效果评价带来偏倚。再者,主要指标的观察时间点同样重要,有的治疗可能提供的是远期优势,需要观察几年才能看到效果,同样,有的治疗方法可能在治疗即刻就体现效果,但在过后的观察期与传统治疗间可能并没有明显的优势,这就要求研究者在方案设计阶段,结合具体的研究问题选择合理的观察时点,同样,这里的时点指主要指标的“主要时点”,例如,可将服药4周后的尿蛋白水平作为主要终点,而将治疗2周的尿蛋白水平作为次要终点。

三、样本量的确定

上述研究方案要素不明确的时候,很难对试验样本量进行合理准确的测算[8],只有上述研究方案要素都得到确认后,再结合预期疗效的估计对研究的样本规模进行测算[9]。样本量计算通常需要以下的要素:

1.效应值:所谓效应值实际就是预期疗效的估计,在比较两组时,就相当于主要指标在组间的预期差异。两组间的差异越大,证明起来就越容易,所需要的样本量越小。反之两组差异越小,想证明组间差异需要的样本量就越多。除组间差异外,主要终点指标的变异也影响样本量的规模,对于定量指标变异就是标准差,变异大的指标说明其可重复性差、测量误差大,所以变异的大小与样本量成正比,同样的指标如果标准差更大,则需要的样本量更多。对于定性指标,例如事件发生率,其本身就体现了变异的程度,事件率水平越接近50%,其不确定程度越高,相当于对应的变异更大。效应值的获得,可以通过文献、前期研究和临床经验,相对准确的预期疗效估计,能够保证试验设计具有更高的效率。当然,在试验开始前对效应值进行估计总是困难的,有时更多的需要基于临床的判断,例如,所估计的组间疗效差异,应具有一定的临床显著性,5mmHg(1mmHg=0.133kPa)的收缩压改变,可能对应的是远期临床心血管事件发生风险的降低;反之,如果组间差异过小,即便通过较大的研究样本量,可能最终获得的仅仅是统计学显著的阳性结果,但是该结果可能缺乏临床意义。

2.检验的显著性水平:检验的显著性水平可理解为与最终的P值对应,其临床意义为,当所研究的两组之间实际没有差异时,通过一次试验,错误的认为试验组与对照组有差别的可能性。研究者都不希望犯这样的错误,所以希望将犯错误的可能性控制在很低的水平,临床研究中一般取为5%,这也就是为什么P<0.05时才认为存在显著差异的原因,此时,出现假阳性(把没差异的治疗错判为有差异)的概率小于5%,从而证明了差异是真实存在的。关于显著性水平和单或双侧检验的关系问题也常被提及,从统计角度看,其实是两个独立的概念。通常,优效性检验、非劣效检验可被看做单侧检验,因为检验对应的假设是有明确方向的。传统的差异性检验是经典的双侧检验。笔者建议在进行双侧检验时,显著性水平最好取双侧5%,而进行单侧检验时,显著性水平则最好取到单侧2.5%。从检验的要求上看,双侧5%与单侧2.5%相对应,都能够保证将研究者犯上述假阳性(将无效的治疗错判为有效)错误的可能性,控制在较低的水平。

3.把握度:把握度是研究设计中的重要概念,很多情况下,样本量设计又被称作把握度分析,把握度的概念很容易理解,是指当所研究的干预方法是真正有效的,那么通过一次试验能够顺利将其证明的成功率。研究者当然希望这一成功率越高越好,不过,越高的把握度水平要求的样本量也越多,通常在研究设计中,建议将把握度的水平设置在80%,在一些大规模临床研究中,把握度水平可能达90%甚至更高。在获得研究结果后再进行事后的把握度分析意义不大,通常阴性结果的研究,如果按照其观察到的疗效反算,把握度是不足的。这里的关键问题是,研究之所以出现阴性结果,肯定是因实际结果显示的组间差异没有达到设计时预期的水平,而如果在设计时所给出的已经是最低的具有临床意义的预期差异,此时再用把握度不足来解释就显得不够充分,因为即便通过继续扩大样本量而获得的显著差异已经没有了临床意义。而有意思的现象是,对于一个达到阳性的试验结果而言,反算其把握度仍然可能是不足的,这牵扯到检验拒绝域的问题,从结论上看相对简单,就是要慎重对待小样本研究给出的结果,无论阴性或阳性,因为小样本研究都会存在把握度不足,以及会给研究者提供错误信息的风险。总之,统计学在研究方案设计中发挥的作用,是将研究设计的要素进行串联,协助研究者将研究目的转化为合理的研究假设、更好的确定目标人群的选择、制定更合理的主要评价指标、选择适合的统计方法等,并在此基础上结合预期疗效估计,为研究设计出合理的样本规模。综上,要获得科学且合理的研究设计结果,需要从统计和临床专业角度都予以全面考虑,且进行充分的沟通与协作。

作者:王杨工作单位:中国医学科学院北京协和医学院阜外心血管病医院心血管病研究所心血管转化医学国家重点实验室