目的 探索极小样本两独立定量资料假设检验方法的表现性能。
方法 使用蒙特卡洛方法产生不同均数差、分布和样本量的数据,分别使用t检验、Wilcoxon秩和检验和Bootstrap法进行假设检验,并估计每种情形下的统计效率。
结果 当样本量极小时,Wilcoxon秩和检验的统计效率极低。当数据呈偏态分布时,Bootstrap置信区间法容易犯Ⅱ类错误。当均数差较大时,该法仍有较高的统计效率。不论数据是否服从正态分布,当样本量极小时,t检验的表现优于Wilcoxon秩和检验。
结论 根据本模拟研究结果,当数据服从正态分布时,建议使用t检验对极小样本进行统计推断。当数据不服从正态分布时,建议使用Bootstrap置信区间法对极小样本进行统计推断。
在基础医学实验研究中,研究对象以细胞、动物为主,一些实验细胞或动物模型不仅构造困难,而且花费较大,如巴马小型猪或恒河猴等,不仅动物本身费用较高,同时因伦理限制无法纳入太多。因此,部分动物实验的样本量极小,如每组小于10例[1-3]。统计学上为了保证一定的统计检验效率,常要求样本例数不能过小。此外,在使用如独立样本t检验等参数检验方法时,还要求样本服从正态分布和方差齐性的假设[4]。但在极小样本的情况下,即使是不服从正态分布的样本,在统计检验效率很低的情况下也无法拒绝H0假设(样本服从正态分布或满足方差齐性)。当独立定量资料样本不满足正态分布或方差齐性假设时,可以使用对数据分布不敏感的非参数检验,对于两组独立定量资料,可以使用Wilcoxon秩和检验或Mann-Whitney U检验来比较两个样本所代表的总体分布位置是否相同[5-6]。但这两种方法是将样本的原始数据编秩后再进行后续的假设检验,当资料服从参数检验的条件时,会导致样本大量变异的信息损失,进而影响统计检验效率,增加犯Ⅱ类错误的概率[7]。当样本量小于4时,使用Wilcoxon秩和检验的P值均大于0.05。Siegel认为样本量小于6时,不能使用t检验[8]。祝国强等认为在对非正态极小样本的定量资料进行统计推断时,不适合使用t检验,推荐使用Wilcoxon秩和检验[9]。林正大等认为在大样本或偏离对称性较远的情况下,Wilcoxon秩和检验更优[10]。对于统计学的频率学派来说,假设检验和置信区间(Confidence Interval, CI)是一对相伴相随的概念,在同一置信度/检验水准下,参数的置信区间未跨过拒绝域,假设检验则不能拒绝H0。Bootstrap法是一种可以用来稳健地估计置信区间的非参数方法,其通过对原始样本数据进行有放回抽样得到统计量的经验分布,从而估计统计量对应总体参数的置信区间[11]。在极小样本时,Bootstrap法能否达到其在大样本中的稳健性,以及该方法估计的置信区间的精度也值得进一步探索。
本研究采用蒙特卡洛数据模拟方法,比较两独立样本t检验、Wilcoxon秩和检验和Bootstrap置信区间法在解决极小样本两独立定量资料比较中的表现,以期为相关实验性研究提供方法学参考。
1 资料与方法
1.1 模拟数据的生成
通过蒙特卡洛数据模拟方法生成模拟数据,主要有以下几个模拟情景。样本含量:本研究主要模拟极小样本量下的统计方法表现性能,共模拟5种样本量——每组各2、3、5、10和20。均数差:共设置5种均数差——0、0.5、1、2和3。从均数相同的两总体中抽样,两总体均数差为0,H0成立,且均数差的置信区间包含0,认为两样本来自同一总体,两组样本均数的不同由抽样误差造成,当统计检验方法拒绝H0时则认为发生Ⅰ类错误。当两样本均数差不为0时,两样本不是来自同一样本,若统计检验方法未能拒绝H0,则认为发生Ⅱ类错误。样本分布:共设置3种总体分布,第1种为两样本均服从总体方差为12的正态分布,总体均数根据均数差确定(其中一组为0,即第一组的总体为标准正态分布);第2种(偏态分布一)为两样本服从偏度系数为1.5,峰度系数为3.0的偏态分布;第3种(偏态分布二)为两样本服从偏度系数为1.0,峰度系数为2.0的偏态分布[12]。
对以上三个因素的不同水平进行全排列构建75种(5种样本量×5种均数差×3种总体分布)情景,每种生成10 000个模拟数据集。
1.2 检验方法
基于Bootstrap法估计均数差的置信区间。采用Bootstrap重抽样技术对模拟数据集进行1 000次重抽样构建两样本均数差的经验分布。通过估计经验分布的第2.5%和第97.5%分位数确定均数差的95%CI。当95%CI下限大于0或上限小于0时,认为两组均数差异有统计学意义,两样本对应的总体均数不同。
参数和非参数假设检验法。采用两独立样本t检验和Wilcoxon秩和检验对两总体均数是否相同进行假设检验。与Bootstrap法估计的95%CI相对应,假设检验的检验水准α=0.05,均为双侧检验。
1.3 评价标准
在均数差为0时,若t检验和Wilcoxon秩和检验的P值小于α,或Bootstrap法估计的均数差95%CI未跨过0,认为发生I类错误。在均数差不为0时,以上情形认为成功检验出统计学差异,即未发生Ⅱ类错误。
分别使用t检验、Wilcoxon秩和检验和Bootstrap置信区间法对75种情景下,每种情景的10 000个模拟数据集进行分析。计算并比较3种方法在不同数据情景下的I类错误发生率和100%-Ⅱ类错误发生率(统计效率)。
1.4 统计软件和硬件
本研究使用的统计软件为R 4.1.3,数据模拟的平台为塔式服务器,处理器型号为Intel Xeon Gold 6230,内存为384GB。
2 结果
2.1 I类错误
大样本时I类错误的发生与样本量无关,其仅与检验水准α有关,但根据本研究的模拟结果,t检验和Wilcoxon秩和检验的I类错误发生率均小于检验水准(图1a和图1b)。当样本量n=2、n=3时,Wilcoxon秩和检验的I类错误发生率为0。这是由Wilcoxon秩和检验方法特性造成的[8]。对于t检验来说,极小样本时的I类错误发生率小于检验水准α,尤其是当数据分布为本研究设定的两种偏态分布时更为明显,这可能与此种情形下不适用t检验有关。但Bootstrap置信区间法的I类错误发生率较高,当数据服从正态分布时,I类错误发生率随着样本量的增加而下降,当数据为偏态分布时,I类错误发生率随着样本量的增加而上升(图1c)。
2.2 统计效率
三种总体分布下(正态分布、偏态分布一和偏态分布二)分别使用三种方法(t检验、Wilcoxon秩和检验和Bootstrap置信区间法)的统计效率分别如图2a、图2b和图2c所示。当均数差较小时,无论使用哪种方法,统计效率都很低,Bootstrap置信区间法表现略优于另外两种假设检验的方法;当均数差较大时,即使样本量很小,Bootstrap置信区间法仍有较高的统计效率,说明此时犯Ⅱ类错误的概率较低(图2c)。
无论数据是否服从正态分布,当样本量极小时(n=2、n=3),t检验的表现优于Wilcoxon秩和检验。但当样本量较大且均数差也较大时,t检验与Wilcoxon秩和检验统计效率差异不大(图2a、图2b)。
3 结论
本研究通过数据模拟的方法,探索了采用两独立样本t检验、Wilcoxon秩和检验和Bootstrap置信区间法对极小样本两独立定量资料进行统计推断时统计效率的差异。由模拟结果可见,相较于Wilcoxon秩和检验,t检验在样本量极小时(n=2、n=3)仍有一定的统计效率,且对总体数据分布不是很敏感。当数据服从本研究设定的两种偏态分布时,t检验的表现不差于Wilcoxon秩和检验。在样本量极小时,Bootstrap置信区间法可以增加统计效率,但在两组样本均数差为0(即两组样本来自同一总体),且数据服从正态分布时,犯Ⅰ类错误的概率较高。
综上,根据本模拟研究结果,当数据服从正态分布时,建议使用t检验对极小样本进行统计推断;当数据不服从正态分布时,建议使用Bootstrap置信区间法对极小样本进行统计推断。由于对于极小样本统计效率太低,当样本量极小时,无论数据服从何种分布,均不建议使用Wilcoxon秩和检验进行统计推断。
1.白雪, 孟宪玉, 朱菊茹, 等. 2型糖尿病小型猪模型制备方法的研究进展[J]. 中华实用诊断与治疗杂志, 2019, 33(7): 717-719. [Bai X, Meng XY, Zhu JR, et al. Preparation of minipig models of type 2 diabetes mellitus[J]. Journal of Chinese Practical Diagnosis and Therapy, 2019, 33(7): 717-719.] DOI: 10.13507/j.issn.1674-3474.2019.07.026.
2.顾鹏, 陈傍柱, 徐涛, 等. Hpd基因修饰制备高酪氨酸血症Ⅲ型巴马小型猪模型[J]. 中国比较医学杂志, 2019, 29(5): 11-16. [Gu P, Chen BZ, Xu T, et al. Generation of a Bama minipig model of hereditary tyrosinemia type III by modifying the Hpd gene[J]. Chinese Journal of Comparative Medicine, 2019, 29(5): 11-16.] DOI: 10.3969/j.issn.1671-7856.2019.05.002.
3.周莹, 杜湧瑞, Zelinski Mary B, 等. 慢性炎症在X射线诱发恒河猴卵巢组织持续损伤中的潜在作用[J]. 天津医科大学学报, 2022, 28(2): 160-164. [Zhou Y, Du YR, Zelinski MB, et al. Potential role of chronic inflammation in persistent ovarian injury exposed to X-ray targeted irradiation in rhesus monkeys[J]. Journal of Tianjin Medical University, 2022, 28(2): 160-164.] https://d.wanfangdata.com.cn/periodical/ChlQZXJpb2RpY2FsQ0hJTmV3UzIwMjMwNDI2EhR0aWFuanlrZHh4YjIwMjIwMjAxMBoIaWU5NTVndmI%3D.
4.Bland JM, Altman DG. Analysis of continuous data from small samples[J]. BMJ, 2009, 338: a3166. DOI: 10.1136/bmj.a3166.
5.祝国强. 医药数理统计方法(第2版)(BZ)[M]. 北京: 高等教育出版社. 2009. [Zhu GQ. Mathematical and Statistical Methods in Medicine (2nd edition) (BZ)[M].Beijing: Higher Education Press. 2009.]
6.娄冬华. 秩和检验的统计思想[J]. 中国卫生统计, 2005, 22(4): 264-265, 267. [Lou DH. Statistical thought of rank sum test[J]. Chinese Journal of Health Statistics, 2005, 22(4): 264-265, 267.] DOI: 10.3969/j.issn.1002-3674.2005.04.028.
7.王俊, 吴熙. 实际应用中方差分析与秩和检验结果比较[J]. 中国卫生统计, 2008, 25(1): 55, 58. [Wang J, Wu X. The results of variance analysis and rank sum test were compared in practical application[J]. Chinese Journal of Health Statistics, 2008, 25(1): 55, 58.] DOI: 10.3969/j.issn.1002-3674.2008.01.019.
8.Siegel S. Nonparametric statistics for the behavioral sciences(1st ed)[M]. Tokyo: McGraw-Hill Kogakusha. 1956.
9.祝国强, 杭国明, 滕海英, 等. 谈谈两总体比较的非参数检验方法[J]. 数理医药学杂志, 2011, 24(5): 524-525. [Zhu GQ, Hang GM, Teng HY, et al. On two types of non-parametric tests[J]. Journal of Mathematical Medicine, 2011, 24(5): 524-525.] DOI: 10.3969/j.issn.1004-4337.2011.05.006.
10.林正大, 刘平, 黄士铮, 等. 方差非齐及小样本下总体均值差检验的探讨[J]. 上海师范大学学报(自然科学版), 1995, 24(4): 19-23. [Lin ZD, Liu P, Huang SZ, et al. Inquisition into the testing of population mean difference under small sample and non-homo geneity variance[J].Journal of Shanghai Normal University (Natural Sciences), 1995, 24(4): 19-23.] DOI: CNKI:SUN:SHDZ.0.1995-04-003.
11.Efron, Bradley. The jackknife, the bootstrap and other resampling plans[J]. Society for Industrial and Ap-plied Mathematics, 1982. DOI: 10.1137/1.9781611970319.ch3.
12.Fleishman A. A method for simulating non-normal distributions[J]. Psychometrika, 1978, 43(4): 521-532. DOI: 10.1007/bf02293811.