第六章 假设检验基础
本章涉及内容:
假设检验的概念及原理
假设检验的基本步骤
t 检验方法
二项分布与poisson分布资料的Z检验
假设检验与区间估计的关系
假设检验的功效
第一节 假设检验的概念及原理
一、假设检验的概念:
一般科研程序: 假说----验证----对假说作出结论
统计上的假设检验:
假设检验亦称为显著性检验,是判断样本指标与总体指标或样本指标与样本指标之间的差异有无显著性意义的一种统计方法。
假设检验的原理: 假设检验的基本思想是反证法和小 概率的思想
反证法思想:首先提出假设(由于未经检验是否成立, 所以称为无效假设),用适当的统计方法确定假设成立的可
能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。
小概率思想:是指小概率事件在一次随机试验中认为基本上不会发生
概率小于多少算小概率是相对的,在进行统计分析时要事先规定,即检验水准a。
二、假设检验的基本步骤:
例6-1 已知北方农村儿童前囟门闭合月龄为14.1月。某研究人员从东北某县抽取36名儿童,得囟门闭合月龄均值为14.3月,标准差为5.08月。问该县儿童前囟门闭合月龄的均数是否大于一般儿童?
从统计学角度考虑东北某县与北方儿童前囟门闭合月龄有差别有两种可能:1)差别是由于抽样误差引起的,统计学上称为差异无显著性。2)差异是本质上的差异,即二者来自不同总体。统计学上称为差异有显著性。
造成两者不等的原因: ①同一总体,即但有抽样误差存在;②非同一总体,即存在本质上的差别,同时有抽样误差存在。
假设检验的基本步骤(采用反证法思想)
1、建立检验假设与单双侧
假设有两种:一种为检验假设或称无效假设,符号为H0;一种为备择假设,符号为H1。这两种假设都是根据统计推断的目的要求而提出的对总体特征的假设。应当注意检验假设是针对总体而言,而不是针对样本。H0是从反证法的思想提出的,H1和H0是相联系的但又是相对立的假设。
H0一般设为某两个或多个总体参数相等,即认为他们之间的差别是由于抽样误差引起的。H1的假设和H0的假设相互对立,即认为他们之间存在着本质的差异。H1的内容反映出检验的单双侧。
单双侧的确定一是根据专业知识,已知东北某县囱门月龄闭合值不会低于一般值;二是研究者只关心东北某县值是否高于一般人群值,应当用单侧检验。一般认为双侧检验较为稳妥,故较为常用。
2、确定检验水准:亦称为显著性水准,符号为医学全.在线www.lindalemus.comα,是预先给定的概率值。是判定样本指标与总体指标或两样本指标间的差异有无统计学显著性意义的概率水准,在实际工作中, α常取0.05。 α可根据不同的研究目的给予不同的设置,如方差齐性检验,正态性检验α常取0.1或0.2。
3、选择检验方法并计算统计量:要根据所分析资料的类型和统计推断的目的要求选用不同的检验方法。
4、确定P值:P值是指由H0所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有统计量的概率。当求得检验统计量的值后,一般可通过特制的统计用表直接查出P值。
5、作出推断结论:当P≤a时,结论为
按所取检验水准α拒绝H0,接受H1,差异有统计学显著性意义。如果P> a ,结论为按所取检验水准α不拒绝H0,差异无统计学显著性意义。其间的差异是由抽样误差引起的。
2.计算统计量(是随机样本的函数,它不包含任何未知参数):不同的检验方法和类型选用相应的统计量。
3. 确定P值(指从H0规定的总体中随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。)
P值的意义:如果总体状况和H0一致,统计量获得现有数值以及更不利于H0的数值的可能性(概率)有多大。
查 t 值表:
4. 做推断结论: (包括统计结论和专业结论)
假设检验的推断结论是对“H0是否真实”作出判断。这种判断是通过比较P值与检验水准α的大小来进行的。
按=0.05水准,不拒绝H0,差别无统计学意义,故还不能认为该县儿童前囟门闭合月龄的均数大于一般儿童。
t 值 | P值 | 统 计 结 论 |
|
| 按α水准,不拒绝H0,差别无统计学意义。 |
|
| 按α水准,拒绝H0,接受H1差别有统计学意义。 |
第二节 t 检验
一、一组样本资料的t 检验(one sample/groupt-test)
现有取自正态总体N(μ,σ2)的、容量为n 的一份完全随机样本。
目的:推断该样本所代表的未知总体均数µ与已知总体均数µ0是否相等已知总体均数µ0是指标准值,理论值或经大量观察所得的稳定值。
二、配对设计资料的t检验
配对设计是研究者为了控制可能存在的主要非处理因素而采用的一种试验设计方法。
形式:
⑴将受试对象配成特征相近的对子,同对的两个受试对象随机分别接受不同处理;
⑵同一样品分成两份,随机分别接受不同处理(或测量)
⑶同一受试对象处理前后,数据作对比。
检验假设为:
当H0成立时,检验统计量:
表6-1 用药前后患儿血清中免疫球蛋白IgG(mg/dl)含量
序号 | 用药前 | 用药后 | 差值d |
1 | 1206.44 | 1678.44 | 472.00 |
2 | 921.69 | 1293.36 | 371.67 |
3 | 1294.08 | 1711.66 | 417.58 |
4 | 945.36 | 1416.70 | 471.34 |
5 | 721.36 | 1204.55 | 483.19 |
6 | 692.32 | 1147.30 | 454.97 |
7 | 980.01 | 1379.59 | 399.58 |
8 | 691.01 | 1091.46 | 400.45 |
9 | 910.39 | 1360.34 | 449.95 |
10 | 568.56 | 1091.83 | 523.27 |
11 | 1105.52 | 1728.03 | 622.51 |
12 | 757.43 | 1398.86 | 641.44 |
假设检验步骤:
查t 临界值表:t0.05/2,11=2.201
t> t0.05/2,11,得P<0.05
按α=0.05水准拒绝H0,接受H1。可认为用药后小儿IgG增高。
三、两组独立样本资料的t检验
将受试对象随机分配成两个处理组,每一组随机接受一种处理。
1、一般把这样获得的两组资料视为代表两个不同总体的两份样本,据此推断其对应的总体均数是否相等。
2、从两个人群分别随机抽取一定数量的观察对象,测量某项指标进行比较,在实际工作中这类资料也按完全随机设计的两样本比较来对待。
两样本所属总体方差相等且两总体均为正态分布
当H0成立时,检验统计量:
例6-4 某口腔科测得长春市13—16岁居民男性20人的恒牙初期腭弓深度均值为17.15mm,标准差为1.59mm;女性34人的均值为16.92mm,标准差为1.42mm。根据这份数据可否认为该市13—16岁居民腭弓深度有性别差异?
检验步骤:
查t 临界值表:t0.5/2,50=0.679
采用内插法得: t0.4,52的值(t0.4,50=0.849, t0.4,60=0.848,)
t< t0.5/2,50,得P>0.5
按α=0.05水准不拒绝H0,故还不能认为该市13—16岁居民腭弓深度有性别差异。
三、两组独立样本资料的方差齐性检验
两组正态分布随机样本判断其总体方差是否齐同:
当H0成立时,检验统计量
例6-5 为探讨硫酸氧钒对糖尿病性白内障的防治作用,研究人员将已诱导糖尿病模型的20只大鼠随机分为两组。一组用硫酸氧钒治疗(DV组),另一组作对照观察(D组),12周后测大鼠血糖含量(mmol/L)。结果为DV组12只,样本均数为6.5mmol/L,标准差为1.34 mmol/L ;D组8只,样本均数为13.7mmol/L,标准差为4.21 mmol/L 。试问两组动物血糖含量的总体均数是否相同?
查F 临界值表3.2:F0.05,(7,11)=3.76,F > F0.05,(7,11) ,得P<0.05
按α=0.05水准拒绝H0,接受H1,故可认为两个总体方差不相等。
方差齐性检验的另一个方面是比较两组观测数据的测量精度。(两个总体的变异程度是否相同)
例6-7 将同一瓶液样分成20份。将此20份样品随机分成两组,每组10份。用不同的方法分别检测液样中某物质的含量(mmol/L)。结果两种方法测得样本均数相同,样本标准差分别为1.02与0.56。试问两法检测精度是否相同?
查F 临界值表3.2:F0.05,(9,9)=4.03,F < F0.05,(9,9) ,得P>0.05
按α=0.05水准不拒绝H0,故还不能认为两法检测结果精度不同。
四、两样本所属总体方差不等且
两总体均为正态分布
近似t检验-----t’检验
方差不齐时,两小样本均数的比较,可选择以下方法:
1)采用适当的变量变换,使达到方差齐的要
2)采用秩和检验。
3)采用近似法检验 (它包括对临界值和自由度校正两种)。
当所两小样本均数的比较时,其总体分布不呈正态分布时,可选择的方法有两种即变量变换和秩和检验。
四、两样本所属总体方差不等且两总体均为正态分布
当H0成立时,检验统计量(Satterthwaite近似法)
例6-5 为探讨硫酸氧钒对糖尿病性白内障的防治作用,研究人员将已诱导糖尿病模型的20只大www.lindalemus.com/pharm/鼠随机分为两组。一组用硫酸氧钒治疗(DV组),另一组作对照观察(D组),12周后测大鼠血糖含量(mmol/L)。结果为DV组12只,样本均数为6.5mmol/L,标准差为1.34 mmol/L ;D组8只,样本均数为13.7mmol/L,标准差为4.21 mmol/L 。试问两组动物血糖含量的总体均数是否相同?
此资料总体方差不等。
查t 临界值表:t0.05/2,8=2.306
t > t0.05/2,8,得P<0.05
按α=0.05水准拒绝H0,接受H1,故可认为经硫酸氧钒治疗的大鼠与未治疗大鼠的血糖含量不同。
第三节 二项分布与poisson分布资料的z检验
一、二项分布资料的z检验
(一)一组样本资料的z检验
如果二项分布的π或1-π不太小,则当n足够大时,即阳性数与阴性数都大于等于5时,近似地有
检验假设为:
当H0成立时,检验统计量为:
当n不太大时,需作连续性校正:
例6-8 某医院称治疗声带白斑的有效率为80%,今统计前来求医的此类患者60例,其中45例治疗有效。试问该医院宣称的疗效是否客观?
按ν=∞查t 临界值表: (单侧)Z0.10, ∞ =1.2816
Z < Z0.10,得P>0.10
按α=0.05水准不拒绝H0,故可认为该医院宣称的有效率尚属客观。
(二)两组独立样本资料的z检验
它的应用条件为当所比较的两组阳性数与阴性数都大于等于5时
检验假设为:
当H0成立时,检验统计量为:
()
例6-9 用硝苯吡啶治疗高血压急症患者75例,有效者57例,用硝苯吡啶+卡托普利治疗同类患者69例,66例有效。试问两疗法的有效率是否相同?
按ν=∞查t 临界值表: Z0.001/2, ∞ =3.2905
Z > Z0.001/2,得P<0.001
按α=0.05水准拒绝H0,接受H1,故可认为两种疗法有效率不同。
二、Poisson分布资料的z检验
当总体均数λ≥20时,Poisson分布近似正态分布。
(一)一组样本资料的z检验
当H0成立时,检验统计量为:
(一)一组样本资料的z检验
例6-10 某地十年前计划到2000年把孕产妇死亡率将到25/10万以下。2000年监测资料显示,该地区平均而言,每10万例活产儿孕产妇死亡31人。问该地区降低孕产妇死亡的目标是否达到?
按ν=∞查t 临界值表:(单侧) Z0.10, ∞ =1.2816
Z< Z0.10,得P>0.10
按α=0.05水准不拒绝H0,故可认为该地区达到了预定目标。
例6-11 有研究表明,一般人群精神发良不全的发生率不3‰,今调查了有亲缘血统婚配关系的后代25000人,发现123人精神不全,问有亲缘血统婚配关系的后代其精神发良不全者的发病率是否人高于一般人群?
按ν=∞查t 临界值表:(单侧) Z0.10, ∞ =3.2905
Z > Z0.0005,得P<0.0005
按α=0.05水准拒绝H0,故可认为有亲缘血统婚配关系的后代其精神发育不全的发生率高于一般人群。
(二)两组独立样本资料的z检验
当两总体均数都大于20时,可应用正态近似原理。
当H0成立时,检验统计量为:
当两样本观测单位数相等时:
当两样本观测单位数不等时:
例6-11 甲、乙两检验师分别观察15名正常人末梢血嗜碱性白细胞数量。每张血片均观察200个视野。结果甲计数到嗜碱粒细胞26个,乙计数到29个。试问两位检验师检查结果是否一致?
按ν=∞查t 临界值表: Z0.5/2, ∞ =0.6745
Z< Z0.5/2,得P>0.5
按α=0.05水准不拒绝H0,故尚不能认为两检验师检查结果有差异。
例6-12 某车间改革生产工艺前,测得三次粉尘浓度,每升空气中 分别有38、29、36颗粉尘;改革工艺后,测取两次,分别为25、18颗粉尘。问工艺改革前后粉尘数有无差别?
按ν=∞查t 临界值表: Z0.05/2, ∞ =1.96
Z> Z0.05/2,得P<0.05
按α=0.05水准拒绝H0, 接受H1,故可认为工艺改革前后粉尘浓度不同,改革工艺后粉尘浓度较低。
应用泊松分布应注意的问题
1、 泊松分布的X虽然为样本计数,由于观察的单位(时间、面积、容积等)是固定的,可看成n为1,故有均数的含义,按泊松分布的特性,而标准误,在n为1时,标准差与标准误相等。当观察单位不同时,标准误。
2、 要利用正态近似法,要满足条件。如果想满足此条件,可利用泊松分布的可加性原理,若干个小单位合并成一个大单位。
3、两样本均数的比较时,要注意观察单位(时间、面积、容积、人囗基数等)是否相等,若不相等,须化成相同的观察单位后再作比较。
第四节 假设检验与区间估计的关系
区间估计与假设检验是统计推断的两种方法。可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同。每一种区间估计都可以对应一种假设检验方法。它们之间既相互联系,又有区别。
1、置信区间具有假设检验的主要功能
算得的可信区间若包含了H0,则按α水准,不拒绝H0 ;若不包含H0 ,则按α水准,拒绝H0 ,接受H1 。
1)双侧检验 如例6-2 的资料,对用药前后IgG差值的总体均数μd作区间估计。 μd95%的可信区间:
显然, H0:μd=0不在此区间之内,这与按α=0.05水准,拒绝H0的推断结论的等价的。
又如例6-4 的资料,H0:μ1= μ2(即 μ1-μ2=0)
H1: μ1 ≠ μ2 (即 μ1-μ2 ≠0) α=0.05 ,作μ1-μ2的95%可信区间
该区间包含0(H0:μ1-μ2 =0) ,这与按α=0.05水准,不拒绝H0的推断结论的等价的。
(2)单侧检验
如例6-1 的资料,H0:μ=μ0=14.1,H1:μ>14.1 ,α=0.05 ,作μ的95%可信区间
该区间包含了H0:μ=μ0=14.1 ,这与按α=0.05水准,不拒绝H0的推断结论的等价的。
2、置信区间可提供假设检验没有提供的信息
置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。
3、假设检验提供,而置信区间不提供的信息
在统计推断结论为拒绝H0时,假设检验可以报告确切的P值,从而较为精确地说明检验结论的概率保证。置信区间只能在预先确定的置信度100(1-α)%水平上进行推断。
在不能拒绝H0的场合,假设检验可以对检验的功效作出估计,从而可以评价是否在识别差异能力较强的情形下不拒绝H0的。而置信区间并不提供这方面的信息。
根据以上的结论,置信区间与相应的假设检验既能提供相互等价的信息,又有各自不同的功能。把置信区间与假设检验结合起来,可以提供更全面、完整的信息。因此,国际上规定,在报告假设检验结论的同时,必须报告相应的区间估计结果。
第五节 假设检验的功效
一、假设检验的两类错误
第Ⅰ类错误(拒绝了实际上成立的H0,这类“弃真”的错误称为第Ⅰ类错误。其概率大小用α表示, α可以取单尾亦可以取双尾。):如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误。这样的错误称为第Ⅰ类错误。犯第Ⅰ类错误的概率大小为α。
第Ⅱ类错误(接受了实际上不成立的H0,这类“取伪”的错误称为第Ⅱ类错误。其概率大小用β表示, β只取单尾。):如果实际情况与H0不一致,也仅仅由于抽样的原因,使得统计量的观察值落到接受域,不能拒绝原本错误的H0,导致了另一种推断错误。这样的错误称为第Ⅱ类错误。犯第Ⅱ类错误的概率为β。
实际情况 | 检验结果 | |
拒绝H0 | 不拒绝H0 | |
H0为真 | 第Ⅰ类错误(α) 假阳性(误诊) | 结论正确(1- α) 置信度 |
H0不真 | 结论正确(1- β) 检验功效 | 第Ⅱ类错误(β) 假阴性(漏诊) |
|
二、假设检验的功效
1-β称为假设检验的功效 当所研究的总体与H0确有差别时,按检验水准α能够发现它(拒绝H0)的概率。
一般情况下对同一检验水准α,功效大的检验方法更可取。
在医学科研设计中,检验功效(1-β)不宜低于0.75,否则检验结果很可能反映不出总体的真实差异,出现非真实的阴性结果。
当假设检验的结果根据P>0.05作出无统计学意义的“阴性”结论时,研究者则面临着犯第Ⅱ类错误的可能性,应当考虑是否总体间的差异确实存在,有可能由于检验效能不足而未能把总体中确有的差异反映出来。近年来,许多国际会议对于假设检验中P>0.05作出的“阴性”结论,应附有第Ⅱ类错误概率为据,因而有必要介绍其计算方法。
1.一组样本资料t检验的功效
由标准正态分布表查-1.045所对应的上侧尾部面积,得到β=0.8519,于是1-β=0.1481。说明该检验功效太小,即发现δ=0.5个月的差别的机会只有14.81%。
Zβ是负值时,β>0.5
上侧尾部面积为β= 1-x =1-0.1481=0.8519
1-β=0.1481
例6-13 计算例6-1 检验的功效1-β。假定根据现有知识可以取σ=5月,δ=0.5月,单侧Zα=1.645
2.两组独立样本资料t 检验的功效
上侧尾部面积为β= x =0.3430
1-β=0.6570
由标准正态分布表查0.4057所对应的上侧尾部面积,得到β=0.3430,于是1-β=0.6570。说明该检验功效偏小,即发现δ=1mm的差别的机会仅有65.70%。
例6-14 计算例6-4 检验的功效1-β。假定根据现有知识可以取σ=1.5mm,δ=1mm,Zα=1.96,n1=20,n2=34
例 用某药降低心肌梗死患者血压的随机双盲对照试验结果如下,假设检验结果t=1.54,P>0.1,认为该药降低血压无效,问此结论是否可靠。
两组心肌梗死患者治疗后的收缩压
分组 | n | 均数 | 标准差 |
试验组 | 15 | 14.4 | 1.6 |
对照组 | 15 | 15.3 | 1.6 |
根据专业知识认为两均数相差若小于0.67kPa,应认为该差值无临床意义,故令δ=0.67kPa,α=0.05, Z0.05/2=1.96
由标准正态分布表查-0.81所对应的上侧尾部面积,得到β=0.791,于是1-β=0.2090。说明该检验功效偏小,此结论并不可靠,还应增大样本含量进一步试验。
3.二项分布两组独立样本资料Z 检验的功效
例6-15 试计算例6-9 中检验的功效。
假定根据现有知识可以取δ=0.20,π1=0.76,π2=0.96
π=(57+66)/(75+69)=0.854
由标准正态分布表查1.547所对应的上侧尾部面积,得到β=0.0614,于是1-β=0.9386。说明该检验功效较高,即发现δ=0.20的差别的机会达到了93.86%。
三、应用假设检验需要注意的问题
1. 要有严密的研究设计 在抽样研究中,研究设计、搜集数据和统计分析是一个整体。每一种假设检验方法都是与相应的研究设计相联系的。
2. 应用检验方法必需符合其适用条件 如一般t 检验要求样本取自正态总体,而且各总体方差齐同。
3. 适当选择检验水准α 当样本量一定时,α越小,β越大;反之亦然。若想同时减少α和β,只有增大样本含量。
4. 正确理解P值的意义 P值很小时“拒绝H0,接受H1”,但是不要把很小的P值误解为总体参数间差异很大。如果P< α,宜说差异“有统计学意义”,同时写出P的数值或相应的不等式。
5. 统计“显著性”与专业“显著性” 假设检验是为各专业服务的,统计结论必须和专业结论有机的相结合,才能得出恰如其分、符合客观实际的最终结论。