概述临床试验的数据处理与统计分析
发表时间:2024-10-06 18:29:26 来源:杏彩平台客户端-小型植物
药物临床试验的性质属于抽样研究,通常根据研究的目的,通过良好的设计,采用足够数量的受试者(样本)来研究试验药物对疾病进程、预后等方面的作用以及药物的可接受性。因此,临床试验设计必须应用统计学原理对试验相关的因素做出合理的、有效的安排和计划,并最大限度地控制试验误差、提高试验质量以及对试验结果进行科学合理的分析。在保证试验结果科学、可信的同时,尽可能在较少的受试者中进行,以减少受试者的风险,使试验做到高效与省时。所以,统计学在临床试验中起着非常非常重要的作用。
统计学设计、统计分析计划、试验数据处理、统计学分析报告。本章以临床试验的基础要求和统计学原理为重点,扼要讨论这四个方面问题。
药物的有效性与安全性需要通过遵循GCP原则的临床试验来证明。临床试验研究的对象是人和与人的健康有关的各种各样的因素。生物现象具有很大变异性,并存在个体、群体间的差异性。统计学是一门关于用科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学。医学研究的统计分析就是观察一个对象样本,然后推理到从中抽取样本的所有对象人群的过程。统计学在收集、归类、分析和解释大量数据的过程中完成使命。
一项临床试验若无法客观地评价试验药物的安全性和有效性,不能提供关于新的治疗方法的准确信息,这就是一个失败的临床试验。导致临床试验失败的因素很多。有的因素是能控制的,有的则较难控制。其中试验设计对于临床试验的成功与否起着很重要的作用。如果试验假设选择不当、随机化及盲法不规范、人选和排除标准过宽或过严、受试者基线变异大、药物剂量选择不当、终点指标选择及其测定时间不妥、样本数太小、数据分析方法不当都可能会引起临床试验的失败。
通过合理的临床试验设计,正确地实施研究,收集所需的数据并实施良好的数据管理,对数据来进行科学合理的统计分析,才能对所研究的药物的疗效和安全性得出可靠而正确的结论。统计学是保证新药临床研究科学性的技能之一,也是取得有关疗效和安全性可靠证据的法规要求。
生物统计学在提高药品临床研究水平的过程中起着不可忽视的作用。因此,ICH于1998年发布了《临床试验的统计学指导原则》(E9.Statistical Principles for Clinical Trials)。我国也在 2005 年由国家食品药品监督管理局发布了《化学药品和生物制品临床试验的生物统计学技术指导原则》。
生物统计学专业技术人员必须自始至终参与整个临床试验,负责与临床试验有关的统计工作,与其他临床试验专业技术人员合作,确保药物临床试验中统计学原理的恰当应用。
在试验准备阶段,参与试验方案的制订和修订,根据试验方案确定所需要的病例数,制订盲法和随机化实施方案,参与病例报告表的设计和数据管理。在试验进行阶段,根据试验方案制订统计分析计划,实施中期分析,根据统计分析计划编制计算机程序。在试验结束阶段,清理数据,对数据来进行盲态核查,锁定数据;准备分析数据集,根据确定的统计分析计划完成临床资料的统计分析报告,协助主要研究者完成临床试验总结报告。
在新药临床研究的早期阶段常需进行一系列目标明确的试验,探索新药在人体的作用机制、药代动力学,以及探索新药的用法、用量、适应症和安全性等,为后续临床试验提供依据。
探索性试验一般并不总是对事先提出的假设进行简单的检验,分析也可能仅限于探索性分析。这类试验对整个有效性验证有贡献,但不能作为证明有效性的正式依据。所以,这些试验是确证性试验的必要条件和设计的基础。
确证性试验是一种事先提出与试验目的直接有关的假设,并在试验完成后对假设进行检测验证的随机对照临床试验。III期临床试验大多属于这类试验。通过确证性试验提供药物有效性与安全性的有力证据,
以说明所开发的药物对临床是有益的。确证性试验必须对提出的有关安全性和有效性的每一个关键性问题给予充分的回答。有时候一个试验同时具有探索和确证两个方面,试验方案一定明确区分这两方面的内容。
观察指标(observatory variable)是指临床试验中能反映药物有效性与安全性的变量。
主要指标与次要指标主要指标(primary variable)又称主要变量或主要终点(primary endpoint), 是指能够针对试验的最大的目的提供与临床最有关且可信的证据的变量。如一个确证性试验的最大的目的是提供关于有效性的强有力的证据,主要指标就是一个有效性变量。有时安全性与耐受性也可以是主要变量。主要指标的选择应思考相关研究领域已有的公认的准则和标准。主要指标一般只有一个,它也是用于估算试验所需要样本量的变量。次要指标(secondary variable) 是与主要指标有关的支持性变量,或与次要目的有关的有效性变量。次要指标数目也应当是有限的,还可以回答与试验目的有关的问题。在试验方案中均应对主要指标和次要指标作出定义并说明选择的理由。
复合指标在与最大的目的有关的多种测定中难以确定一个主要变量时,可以用预先确定的算法将多个变量组合构成一个“复合变量”或复合指标 (composite variable) „ 例如评价膝关节炎的KSS评分、评价精神疾病所用的简明精神病评定量表(BPRS)等即为复合指标。
替代指标(surrogate variable)是指通过观察实际临床效果直接评价病人的临床受益不可能时或不现实时,可考虑使用的间接评价标准。替代指标是一种能够代替重要临床结果的实验室测量指标、临床症状或体征,治疗可使这些指标发生明显的变化。而这种变化能直接反映病人的主观感受、功能状况或生存情况,能够解释治疗引起的临床结果变化。替代指标一定要能最大可能地预测临床结果。选择替代指标应该对其与临床结果的相关性做验证。使用替代指标的经验相对有限。
全局评价指标(global assessment variable)是一个把客观变量和研究者对患者的状况或者状态的改变程度的总印象结合起来的有序等级指标。全局评价指标一般都有一个主观成分,一定要使用全局评价指标作为主要指标或次要指标时,在试验方案中须详细说明与最大的目的的相关性、等级尺度可靠性的依据。对其中的客观指标应该同时单独作为附加主要指标做多元化的分析。全局评价指标在神经病学和精神病学治疗领域用得比较好,如精神疾病治疗的临床疗效总评量表(CGI)。
分类指标临床评价有时需要将连续变量转换为二分类或多分类变量categorized variable, 如在降血压药物研究中,根据治疗后血压下降的幅度和是否降至正常,将疗效定为显效、有效和无效。分类标准须在试验方案中事先作出规定并明确说明,在已知试验结果后再定分类标准就很容易对分类标准的选择产生偏倚。连续变量转换为分类变量通常会导致把握度降低,在估算样本大小时应予以注意。
偏倚(bias)是指在临床试验的设计、实施和分析评价中由于某些非试验因素影响所致的系统误差。偏倚会干扰试验得出结论的正确性,因此须加以控制。随机化和盲法是控制偏倚的重要措施。
主要偏倚一般来说,临床试验中存在的主要偏移可分成两类,即选择性偏移和测量性偏移。选择性偏倚是指受试对象的入选方法不当造成各治疗组对象入组时的人口学、一般特征或疾病状况存在的显著差异。某些“预后因素”的显著差异可能会引起试验失败。测量性偏倚是指医生或病人对试验方案的不依从造成的偏倚,如错误接纳、违反方案规定的伴随用药;使用的疗效评价方法或测定方法在各中心之间未经过严格验证;以实验室测定值为主要结果变量时,实验室测定不进行室内质控;试验药物的用药(包括医生给药和病人自己服药)依从性差;不按规定时间访视病例,或病例中止、失访等。
盲法(blinding或masking)是为避免在实施临床试验、临床评价、数据处理和统计分析时,由于对治疗分组情况的了解而产生的有意或无意的偏倚。因为对治疗分组情况的了解,可能在受试者的招募和入组,受试者的后续治疗,受试者对治疗的态度,对终点的评价、对中止或失访的处理、数据的剔除等产生一定的影响。盲法分为双盲和单盲。双盲是指受试者、参与治疗或临床评价的研究人员和申办者方职员对受试者接受的治疗处于盲态。这要求试验药物在外观、颜色、气味等方面完全一样。对完全不同的治疗作比较或待比较的药物为不同剂型,或给药方案不同时,达到理想的双盲会有问题,这样的一种情况下需要采用“双模拟”技术实现。当双盲不可行时可考虑采用单盲。单盲是指受试者对接受的治疗处于盲态,或研究者和/或他的研究人员对治疗处于盲态。在某些情况下从实际或伦理考虑没有办法进行盲法试验时,可考虑进行非盲试验(或开放试验)。非盲试验就是受试者和研究者都知道病人接受了什么治疗。进行单盲或非盲临床试验时,应采取可能的相应措施,使已知来源的偏倚降至最小,并且主要指标尽可能采用可客观评价的变量。试验方案中应对设盲和破盲有清楚说明,对试验过程中需要紧急揭盲的情况在试验方案中应有明确规定。
随机化在临床试验中,随机化(randomization) 的含义包括从目标人群中随机选择有代表性的样本,保证参加临床试验的受试者有同等机会被分配到各治疗组中,不受研究者和/或受试者主观意愿的影响。随机化可使各治疗组的预后因素、已知的和未知的各种影响因素分布趋于相似。这可在后续的试验数据分析中为定量评价与疗效相关的证据提供坚实的统计学基础。在多中心临床研究中一般会用分层区组随机方法。
平行组设计(parallel group design)是确证性临床试验中最常用的设计,即将受试者被随机分配到试验的各个治疗组。治疗组可以包括药品的一个或多个剂量组,一个或多个对照组(如安慰剂和/或阳性对照)。这种设计的优点是设计有效、假设简单、有明确的有效性结果。缺点是样本量大和对象变异大。
交叉设计(crossover design)是一种以自身对照进行及时有效的治疗间比较的试验方法,受试者随机分配到事先设定的治疗序列,在不同的试验阶段(周期)分别依次接受各种治疗。治疗周期之间有一个洗脱期。这种设计的优点是能控制个体间差异,且所需观察例数少。缺点是试验时间比较久,有序列效应和周期效应。在设计时须对疾病和新药有足够的认识。交叉设计只适用病程长且主要结果变量是短期症状减轻的情况。如观察避孕套有效性的临床试验。另外,生物等效性研究大多采用交叉设计。采用交叉设计时要注意前一周期治疗作用对后一周期的影响,即所谓“延滞效应” 。分析时需要检测是不是真的存在延滞效应。两治疗、两周期的2X2设计中,统计学并不能检测延滞效应,因此洗脱期要足够长,保证在每个治疗周期开始时的样本中不存在可检出的药物。
析因设计(factorial design)是通过试验药物的不同组合,对两个或多个试验用药一起进行评价。在很多情况下,析因设计大多数都用在检验两种药物间是不是真的存在交互作用;或在已知药物单独使用某个剂量的疗效时,探索同时使用两种药物的剂量反应特征(不同剂量的适当组合)。
成组序贯设计(group sequential design)亦称成组序贯分析,其特点是在试验期间逐组试验,逐组评价。每一批受试者试验后,及时对主要指标(包括有效性与安全性)做多元化的分析,一旦可以作出结论,无论是有统计学意义还是无统计学意义,即停止试验。与固定样本法相比,平均可节省三分之一到一半的病例。成组序贯设计大多数都用在试验药与对照药疗效相差大,但病例稀少、临床观察时间比较久,以及怀疑试验药物有较高的不良反应发生率的情况。采用成组序贯设计须事先规定试验的灵敏度、有效及无效水平以及为控制总的I类错误不超过设定水平(例如《 = 0.05)。试验方案中需说明a消耗函数计算方法。
多中心临床试验是一种更加有效的评价新药方法。它是指由一个单位的主要研究者负责/协调,多个研究机构的多名研究者按同一试验方案要求用相同的方法同步进行的临床试验。多中心临床试验的优点是可以在合理的时间内招募足够多的受试者;避免单一研究机构有几率存在的局限性,多中心入选病例范围广,为结论的普遍性提供了良好的基础,可信度较大。多中心临床试验能大大的提升临床试验设计、实施和解释结果的水平。但是多中心也增加了临床试验的复杂性,管理难度比单一中心要大。
在开始多中心试验前,需要各参加单位的研究者对试验方案充分讨论达成共识,并愿意遵循统一的试验方案实施临床试验。根据同一个试验方案培训参加试验的人员。特别要强调遵循试验方案。召开启动会,同期开始试验。
应当避免各中心招募的病例数差异过大,避免在某个或几个中心募受试者数目过小,以降低治疗效果的不同权重估算的差异。
建立标准化的评价方法,建立实验室及临床评价方法的质控体系。当主要指标为实验室测定指标时,应在开始试验前进行测定方法验证,最好考虑由一个中心实验室做测定。
试验过程中,监查员应以合理的间隔定期到现场检査CRF和原始数据,及时有效地发现试验中不符合GCP、违反试验方案(如人组病例不符合相关规定的接纳标准、违反规定的伴随用药等)、记录不全或与CRF记录与原始数据不符等情况,与研究者充分交流,及时纠正,并书写监查报告。
主要研究者应及时掌握各中心试验情况,监督试验进展并及时解决试验中出现的问题。
临床试验结束、数据的盲态核查完成后,在准备锁定数据库开始分析前,根据自身的需求决定是不是召开各中心研究者参加的数据讨论会,对试验过程中和数据最终核査中发现的一些问题进行澄清和讨论。
期中分析(interim analysis)是监测临床试验的方法之一。期中分析是指在正式完成临床试验前,按预定计划比较各治疗组之间的疗效和安全性所作的分析。由于期中分析牵涉揭盲,进行期中分析的时间、所采用的《调节方法等应事先制订计划并在试验方案中说明。如果在试验开始时并未确定期中分析,则需要在进行期中分析前修改试验方案对此加以说明,并得到伦理委员会批准。
试验方案的修改试验方案经研究者讨论确定并经伦理委员会批准后,一般不宜更改。但在试验期间获得新的资料后认为有必要,或申办者需要或管理部门要求,都可能修改试验方案。一旦需要对试验方案做修改,须重新获得伦理委员会批准。
在试验(尤其是周期较长的试验)进行过程中,发现按原入选/ 排除标准难以招募合格病例,或从试验外及本试验中期分析中不断获得的医学认知提示需要对入选/ 排除标准做修改,经分析原因并采取对应措施,可在不破盲条件下修改原来的入选/排除标准。
试验过程中发现原设计的样本量计算的假设条件不确切,期中分析根据结果得出主要指标的估计与期望值不符时,应修改假设条件,重新计算样本量。
除了入选标准、排除标准和样本量以外,在试验中还会发生因别的问题而需要修改方案的情况(如给药间隔不恰当导致有效率过低)
由于伦理的原因(如有效率太低、严重不良事件)或者试验的把握度变得不可接受时,会提前终止一个临床试验。
根据ICH-GCP指导原则(E6),申办者应当考虑建立一个外部的独立数据监查委员会(independent data monitoring committee, IDMC)。与独立伦理委员会一样,独立数据监查委员会有书面的操作程序,保留所有会议记录。如果委员会中有申办者的代表,在操作程序中对他的作用(如对关键事项有无投票权)应有明确限定。
独立数据监查委员会由申办者组建,其组成人员为包括统计学在内的各有关专业的临床试验科学家。
独立数据监查委员会定期评价临床试验进展,包括安全性数据和关键的有效性变量;向申办者建议是否继续、修改或停止试验。
临床试验数据管理包括纸质或电子病例报告表(CRF)的设计;临床试验数据库的设计和编程,数据获得和将数据输入临床试验数据库;数据检查、核对、编码和数据库最终确定。
数据获取有很多方法,包括:书面或电子医学记录、现场完成书面表格、局部电子数据获取系统、中心网络为基础的系统。CRF是临床试验中获取有关数据最重要的文件。不管使用什么样的CRF,数据的质量和完整性是首要的。CRF随同试验方案一起设计,收集试验方案指定的数据。最好由主要研究者或协调研究者与监查员一起编写CRF填写指南,包括总说明和逐页说明。在临床试验启动前向参加试验的研究人员介绍填写指南,使研究人员了解如何正确记录数据。CRF的填写应当不留空白。各参加试验单位的研究人员应及时填写CRF,并自查。申办者派出的监查员定期到临床单位检查CRF 的记录与原始数据相不相符,并进行范围和逻辑检査,发现漏填、错填的要及时纠正。收集已经填写完成的CRF,通过传真、特快专递、监查员亲手递交送交给数据管理部门。收集、递送CRF应当有交接记录,如寄送清单。临床试验数据的安全、有效和易于存取是临床研究成功的核心。
无论是用可靠的电子系统还是纸质表格收集、传递,都应当把误传的可能性减到最小,保证结果和数据质量的一致性。
用于临床试验的临床数据管理系统执行许多重要的功能。目前管理部门尚无关于临床数据库的相应法规,国内也少有商用的临床数据库软件,数据管理单位通常要根据试验方案和CRF自行编制试验专用数据库。采用纸质CRF时,录入界面的设计应使它看上去与CRF页面一致。数据库在正式使用前需用模拟数据来进行测试。
人生原本就是一场秀丽的相遇!相遇让我们明白生命原先如此相似却又如此不同,就像世界上没有两片相似的叶子!
数据录入过程应注意试验数据的质量发展要求。将CRF中记录的数据录入数据库,一般都会采用独立的两次录入,由专人或第二次录入的操作者解决两次输入之间的矛盾,保证数据库中数据与CRF中的数据一致。
数据清理或确认是保证数据有效性与正确性的各项活动。这些活动包括手工审核和/ 或计算机检查,检查变量范围,完整性,有否违 反试验方案,和有关变量的一致性,鉴别不正确的或无效数据,或用描述性统计检验测试的数据中的异常之处。对检查出的疑问数据应及时向临床单位发出数据质疑表。通过临床研究机构研究者签字确认的数值按被确认的数据接受,并据此对数据库进行更改。数据质疑与更正表应予保存。
盲态审核(blinding review)是指在试验完成( 最后一例患者的最后一次观察)与揭盲之间最近一段时间,对数据来进行检查和评价,以便最终确定所计划的分析,并规定分析数据集的界定标准、缺失值的处理以及离群值的判断原则等。以上任何决定都需用文件形式记录下来,在揭盲后不得修改。
数据锁定临床试验完成,全部CRF已经录入数据库,所有数据查询表已经回复并正确地整合入数据库后,数据经过盲态审核并认定可靠无误后,数据库锁定,数据库不再更改。
揭盲数据库锁定后,由保持盲底的有关人员进行第一次揭盲,只列出每个受试病例所接受的不同治疗组别(如 A 组或 B 组),不标明试验组或对照组。生物统计人员据此做多元化的分析。分析结果得到后,再进行第二次揭盲,即了解哪个组为治疗组,哪个组为对照组。
统计分析计划(statistical analysis plan) 是统计专业技术人员根据试验方案要求准备的比方案中描述的主要分析特征更详细和技术性更强的文件。统计分析计划是将分析数据集的选择、疗效和安全性的主要变量、次要变量、准备采用的统计分析方法、疗效和安全性评价方法、预期的统计分析表等按统计分析报告格式拟定的一个计划书或模拟报告。统计分析计划的初稿一般在临床试验慢慢的开始、收到少数CRF后准备。分析计划在试验过程中可以修改、补充和完善。在盲态审核时再次修改完善,在第一次揭盲之前定稿,此后不得再行更改。
统计分析计划是对临床试验结束后统计分析报告的一个准备。申办者和/或CRO、主要研究者对统计分析计划进行审阅和讨论,提出修改意见使之完善。
统计分析计划(及以后的统计分析报告)不是临床总结报告,它只涉及与统计分析有关的内容。除简要说明题目、试验设计类型和治疗组、病例选择和治疗分配外,内容大致包括:
统计方法:试验方案中陈述的计划的统计分析(疗效和安全性)、人口学和基线测量、有效性数据、安全性数据、计划分析之外的分析和/或偏离;
安全性结果:临床和实验室不良事件及严重不良事件、生命体征和心电图的变化等;
用于统计的分析集在试验方案中就应明确作出定义,并在盲态审核时确认每位受试者所属的分析集。
意向性分析(intention-to-treat analysis, ITTA)包括经过随机化的所有受试者。但在真实的操作中,完整随访所有受试者的试验结果往往难以达到。因此常常会采用全分析集(full analysis set, FAS) 做多元化的分析。全分析集是指尽可能接近符合意向性分析原则的理想的受试者集。全分析集是从所有随机化的受试者中,以最少和合理的方法剔除受试者后得出的分析数据集。从全分析集中剔除少数受试者的情况包括不满足主要入选标准(违反合格性)、没有用过一次药以及在随机化后没有一点数据。
符合方案集(per protocol set, PPS)亦称为“可评价病例”样本。它是全分析集的一个子集,受试者在人选标准、接受专业的治疗、主指标测量等方面对试验方案没有大的违反,依从性良好。排除在符合方案集之外的理由应在盲态审核时阐明。在确证性试验中对药物进行有效性评价时,宜同时使用全分析身 和符合方案集进行统计分析。当两者结论一致时,能增加试验结身的可信性。
缺失值(missing values)是临床试验中一个潜在的偏倚来源。因此,病例报告表中原则上不应有缺失值,尤其是基本数据和重要指标。结果为阴性、零或低于检测限的值,不能留空白,应该用事先的符号表示,以区别于缺失值。因病例脱落而导致主要变量缺失有时可根据试验方案规定,采用最近一次观察结果值结转。
医学研究中,离群值(outlier)指测定中生物学上不合理的异常值。离群值应当从医学和统计学专业两方面去判断,尤其应从医学专业相关知识判断。离群值处理应在试验方案中规定并在盲态检查时进行。
数据转换是为了确认和保证资料满足统计分析方法所基于的假设,变换方法的选择原则应当是公认的(如生物等效性数据的对数转换) 。最好根据先前研究中类似资料的性质,在试验设计时对关键变量要不要进行转换作出决定。拟采用的转换及其依据需在试验方案中说明。
描述性统计分析描述性统计是在收集、整理数据的基础上,通过相应的统计量以及统计图和统计表来描述资料某些分布特征的统计方法。描述性统计不对总体进行推断。描述性统计最重要的包含数据的频数分析、数据的集中趋势变化分析、数据离散程度分析、数据的分布以及一些基本的统计图形。在SAS中,描述性统计的主要过程包括MEANS,PLOT,SUMMARY,TABULATE,FREQ,UNIVARIATE,CORR 和 REG 等。
参数估计、可信区间和假设检验临床试验所观测到的数据只是一部分受试者(称为样本)的数据,我们应该根据样本信息对总体参数作出推断,例如希望能够通过样本数据来判断一种新药在临床应用时是否真正有效。从样本推断总体,需要对总体先作出某些假定,称为统计假设 (statistical hypothesis)。在很多情况下,给出一个统计假设仅仅是为了拒绝它。例如要判断一种药物是否优于另一种药物,我们假设两种药物的疗效之间没有差异,这样的假设常称为零假设。任何不同于零假设的都称为备择假设。使我们也可以判断观测到的样本是否和预期的结果有显著的区别并让我们决定是不是接受或拒绝假设的过程称为假设检验(hypothesis testing)。由于样本的随机变异,即使一个设计良好的研究能给出的也只是所寻求答案的一个意见。因此来自一个样本的结果有统计不确定性,
它与样本大小有关。将这种不确定性本身的估算结合到结果表达中就是采用可信区间(confidence interval)的基础原理。用一个数来估计总体的参数称为参数的点估计。如果给出两个数,指出参数位于其间,这种估计称为参数的区间估计。可信区间的最大的目的是表示样本估算作为群体值的(不)精确度。一个统计量的均值的95%可信区间是指在这个区间内找到均值的概率为95%。95%即为可信度。区 间估计比点估计更精确。
参数估计、可信区间和假设检验是对主要指标及次要指标进行评价和估计必不可少的手段。试验方案中,应当说明要检验的假设、有估计的处理效应、所采用的统计分析方法和所涉及的统计模型。只要可能,处理效应应当同时给出可信区间并说明估计方法。假设检验须明确说明是采用单侧检验还是双侧检验,如采用单侧检验应说明理由。
临床试验设计和分析中,会影响疾病结果的非处理因素统称为协变量covariate。常用的协变量包括人口统计学指标和基线值。理论上随机化能保证所有协变量在治疗组间的平衡,但在实际试验中仅用随机化很难保证有些协变量的平衡。协变量分析是关于如何调节协变量对因变量的影响作用,从而更有效地分析处理效应的一种统计分析技术。例如,当终点变量为定量指标时,可采用协方差分析;当终点变量为发生率时,可采用CMH卡方做调整;当终点变量为分实指标时,可采用Logistic回归或分类数据模型CATMOD调整;当终点为至事件发生的时间时,可采用COX回归进行协变量调整。协变量应在试验前仔细考虑,确认对主要变量有重要影响的协变量,在分析中也要仔细考虑怎么处理这些协变量。
在所有临床试验中,安全性评价是很重要的一个方面。临床试验早期病例数较少,观察期较短,安全性评价主要是探索性的,只能发现发生率高的常见不良反应。在临床试验后期,病例样本量大,可以更充分地表征药物的安全性特征。后期的对照试验是一个以无偏倚方式揭示任何新的潜在不良作用的重要手段。有时为说明研究药物在安全性方面优于或相当于另一种药物,或研究药物的另一个剂量,可以设计一些试验。和有效性评价一样,这种试验需要有来自确证性试验的相应证据支持。
临床试验中,选择用来评价药物安全性的方法和测定取决于许多因素,包括与药物紧密关联的不良作用知识,非临床和早期临床试验的资料,以及药物的药代动力学和药效动力学特征,给药途径,患者情况和研究期限等。安全性评价的主要内容是临床不良事件,血液学和临床化学实验室测定,体格检查和生命体征。严重不良事件和因不良事件导致的治疗终止,可对新药注册发生重要影响。
安全性评价数据集包括至少接受了一次所研究药物的病例。收集安全性数据应该尽可能全面,包括不良事件的名称、类型、严重程度、开始及结束时间、与研究用药的关系、转归和是否接受专业的治疗等。在多中心临床试验中,不良事件的定义应当事先规定。各中心的实验室测定的正常范围不同时,需考虑进行恰当的标准化,实验室不良事件的评价标准应事先统一;不良事件的严重程度判断依据或毒性等级也须事先确定。不良事件包括发生在给予研究用药后(到停止给药后30天内)
发生的任何与用药目的无关的医学事件,也包括原先存在疾病的加重,原先存在的发作性事件或状况的发生频率或强度的增加,可能在研究前就存在但在给予研究用药后才检査诊断出的疾病,基线时就存在、给予研究用药后恶化的疾病或症状。收集和评价不良事件所用的方法最好一致,能够使用一个国际通用的不良事件词典,以便对不良事件按名称和器官系统来进行归并。不良事件数据一般表达为不良事件的事件数和累及病例百分数;
按器官系统区别划分的不良事件的事件数和累及病例百分数;按器官系统和严重程度划分的不良事件的事件数和累及病例百分数;按器官系统和与研究药物相关关系划分的不良事件的事件数和累及病例百分数;
因不良事件/严重不良事件导致中止治疗的事件数和累及病例百分数等。不良反应、严重不良事件、严重不良反应和实验室不良事件/反应也以上述同样方式表达。
临床试验中常会重复进行实验室检查和体格检查。不同时间点免实验室检查结果以正常、异常无临床意义和异常有临床意义,或正常、异常表示时,此类结果应按各检査时间点列出各类检查结果的病例数和百分比。不同时间点的生命体征和体重等变化应列出均值和标准差以及中位数和最小、最大值。发生严重不良事件的病例,除了按法规要求及时向有关管理部门报告外,在分析中应该逐例列出他们的随机号、人口学数据、基线数据及与严重不良事件有关的详细情况。
在大多数临床试验中,安全性评价采用描述性统计办法来进行数据分析。在有利于说明时可辅以可信区间。进行试验组与对照组的比较时,计算P值也很有用,可以评价一个我们感兴趣的差异,或者作为显示差别值得进一步注意的一个标志。必须要格外注意的是,安全性数据大多是自身对照的重复测量数据。进行统计学评价时,需依据数据的类型,采用适合于计量数据或分类数据的重复测量统计分析方法。