第七章 χ2 检 验(chi-squaretest)
主要应用:推断两个或多个样本率及构成比之间有无差别,检验分类变量配对设计下的卡方检验,以及频数分布的拟合优度检验等。
本章学习主要内容:
χ2分布和拟合优度检验
完全随机设计下两组频数分布的χ2检验
完全随机设计下多组频数分布的χ2检验
配对设计下两组频数分布的χ2检验
χ2检验要注意的问题
四格表的确切概率法
小结
第一节 χ2分布和拟合优度检验住院医师
一、 χ2分布
χ2分布是一种连续型随机变量的概率分布
二 、c2检验的基本思想
c2检验的基本公式:c2 =∑(A-T)2/T
式中A代表每个格子的实际频数( actual frequency ),即表中的基本数据;T代表每个格子的理论频数( theoretical frequency )
三、 据拟合优度检验介绍 检验基本思想
检验假设:
H0:总体分布等于给定的理论分布
H1:总体分布不等于给定的理论分布
计算统计量:
表 7-1 136例体模骨密度测量值频数分布表及拟合优度检验
组段 | A | Φ(X1) | Φ(X1) | P(X) | T=n* P(X) | (A-T)2/T |
1.228- | 2 | 0.00069 | 0.00466 | 0.00397 | 0.5405 | 3.94143 |
1.234- | 2 | 0.00466 | 0.02275 | 0.01809 | 2.4601 | 0.08605 |
1.240- | 7 | 0.02275 | 0.08076 | 0.05801 | 7.8889 | 0.10016 |
1.246- | 17 | 0.08076 | 0.21186 | 0.13110 | 17.8294 www.med126.com | 0.03859 |
1.252- | 25 | 0.21186 | 0.42074 | 0.20888 | 28.4083 | 0.40892 |
1.258- | 37 | 0.42074 | 0.65542 | 0.23468 | 31.9167 | 0.80961 |
1.264- | 25 | 0.65542 | 0.84134 | 0.18592 | 25.2855 | 0.00322 |
1.270- | 16 | 0.84134 | 0.94520 | 0.10386 | 14.1244 | 0.24906 |
1.276- | 4 | 0.94520 | 0.98610 | 0.04090 | 5.5618 | 0.43858 |
1.282- | 1 | 0.98610 | 0.99744 | 0.01135 | 1.5434 | 0.19130 |
合 计 | - | - | - | - | - | 6.26692 |
1. 建立假设
H0:总体分布等于均数为1.26,标准差为0.01的正态分布 H1:总体分布不等于该正态分布 α=0.05
2. 计算统计量:
3. 确定P值: ν=k-1-2=10-1-2=7
4. 判断结论:按α=0.05水准,不拒绝H0,故认为该样本服从正态分布。
第二节 完全随机设计下两组频数分布的χ2检验
一、 二分类情形—2×2列联表
例7-2 某医师研究用兰芩口服液与银黄口服液治疗慢性咽炎疗效有无差别,将病情相似的80名患者随机分成两组,分别用两种药物治疗,结果见下表:
慢性咽炎两种药物疗效资料
药物 | 疗效 | 合计 | |
有效 | 无效 | ||
兰芩口服液 | 41(36.56) | 4(8.44) | 45(固定值) |
银黄口服液 | 24(28.44) | 11(6.56) | 35(固定值) |
合计 | 65 | 15 | 80 |
完全随机设计下两组频数分布的四格表
处理 | 属性 | 合计 | |
阳性 | 阴性 | ||
1 组 | A11(T11) | A12(T12) | n1(固定值) |
2 组 | A21(T21) | A22(T22) | n2(固定值) |
合计 | m1 | m2 | n |
1.建立检验假设并确定检验水准
H0:两药的有效概率相同,π1=π2
H1:两药的有效概率不同,π1≠π2 α=0.05
2. 计算检验统计量:H0成立时,两组有效概率相同,均近似地等于合并估计的有效概率,由此得到四格表中每一格的理论数,
自由度为:ν=(行数-1)(列数-1)=(2-1)(2-1)=1
3. 确定P值 查附表8
4. 结论:按α=0.05水准,拒绝H0,接受H1,两样本频率的差别有统计学意义。可以认为,兰芩口服液和银黄口服液的总体有效概率不同。前者(91.1%)高于后者(68.6%).
另外,还可以用“需处理数”(number needed to treat,NNT)作为指标比较两种药物的临床治疗效果。NNT=(有效率之差)-1
它说明为了增加1 例有效者而需要改变治疗的人数,显然,NNT值越小越好。本例:NNT=(91.1%-68.6%)-1=(22.5%)-1=4.44
意义为:要想增加1 例有效者,需要有4.44位患者从银黄口服液组转向兰芩口服液组。
四格表专用公式:
完全随机设计下两组频数分布的四格表
处理 | 属性 | 合计 | |
阳性 | 阴性 | ||
1 组 | a (T11) | b (T12) | a+b (固定值) |
2 组 | c (T21) | d (T22) | c+d (固定值) |
合计 | a+c | b+d | n |
四格表专用公式:(1<T³5,且n ³ 40)
四格表校正公式 :当(1£T<5,且n ³ 40)需校正
例7-3 将病情相似的淋巴系肿瘤患者随机分成两组,分别做单纯化疗与复合化疗,两组的缓解率见下表,试问两疗法的总体缓解率是否不同?
两种疗法缓解率的比较
组别 | 属性 | 合计 | 缓解率(%) | |
缓解 | 未缓解 | |||
单纯化疗 | 2(4.8) | 10(7.2) | 12(固定值) | 16.7 |
复合化疗 | 14(11.2) | 14(16.8) | 28(固定值) | 50.0 |
合计 | 16 | 24 | 40 | 40.0 |
1.建立检验假设并确定检验水准
H0:两法总体缓解概率相同,π1=π2
H1:两法总体缓解概率不同,π1≠π2 α=0.05
2. 计算检验统计量:H0成立时,两组缓解概率相同,均近似地等于合并估计的缓解概率,由此得到四格表中每一格的理论数,1<T11<5,n=40,
需采用校正公式:
3. 确定P值 查附表8
4. 结论:按α=0.05水准,不拒绝H0,两样本频率的差别无统计学意义。尚不能认为两种治疗方案的总体缓解概率不同。
当T<1,或n<40时,校正公式也不恰当,这时必须用四格表的确切概率计算法。(第六节)
二、多分类的情形—2×C列联表
例7-4 1986年某地城市和农村20至40岁已婚妇女避孕方法情况,如下表,试分析该地城市和农村避孕方法的总体分布是否有差别?
两种疗法缓解率的比较
组别 | 避孕方法 | 合计 | |||
节育器 | 服避孕药 | 避孕套 | 其他 | ||
城市 | 153 | 33 | 165 | 40 | 391 |
农村 | 320 | 75 | 43 | 18 | 456 |
合计 | 473 | 108 | 208 | 58 | 847 |
完全随机设计下两组频数分布的2×C表
处理 | 属性(水平) | 合计 | |||
1 | 2 | … | C | ||
1组 | A11(T11) | A12 (T12) | … | A1c (T1c) | n1(固定值) |
2组 | A21(T21) | A22 (T22) | … | A2c (T2c) | n2(固定值) |
合计 | m1 | m2 | … | mc | n |
简化为:
1.建立检验假设并确定检验水准
H0:城市和农村已婚妇女避孕方法总体概率分布相同 H1:城市和农村已婚妇女避孕方法总体概率分布相同α=0.05
2. 计算检验统计量:H0成立时,两组概率相同,均近似地等于合并计算的概率,由此得到各格的理论数,
3. 确定P值 查附表8
自由度为:ν=(行数-1)(列数-1)=(2-1)(4-1)=3
4. 结论:按α=0.05水准,拒绝H0,接受H1,两样本频率的差别有统计学意义。可认为城市和农村已婚妇女避孕方法的总体概率分布不同。
第三节 完全随机设计下多组频数分布的χ2检验
设有一个定性变量,具有C个可能“取值”;现有R组独立样本的频数分布,其数据如下表,这样的数据称为R×C列联表。
完全随机设计下多组频数分布的R×C表
处理 | 属性(水平) | 合计 | |||
1 | 2 | … | C | ||
1组 | A11(T11) | A12 (T12) | … | A1c (T1c) | n1(固定值) |
2组 | A21 (T21) | A22 (T22) | … | A2c (T2c) | n2(固定值) |
… | … | … | … | … | … |
R | AR1 (TR1) | AR2 (TR2) | … | ARc (TRc) | nR(固定值) |
合计 | m1 | m2 | … | mc | n |
例7-5 为研究某镇痛药的不同剂量镇痛效果是否有差别,研究人员在自愿的原则下,将条件相似的53名产妇随机分成三组,分别按三种不同剂量服用该药,镇痛效果如下表。
某药不同剂量的镇痛效果
剂量 mg | 镇痛效果 | 合计 | 有效率(%) | |
有效 | 无效 | |||
1.0 | 3(7.36) | 12 (7.64) | 15(固定值) | 20.00 |
2.5 | 11(9.81) | 9(10.19) | 20(固定值) | 55.00 |
5.0 | 12 (8.83) | 6 (9.17) | 18(固定值) | 66.67 |
合计 | 26 | 27 | 53 | 49.06 |
1.建立检验假设并确定检验水准
H0:三种剂量镇痛有效的概率相同 H1:三种剂量镇痛有效的概率不全同 α=0.05
2. 计算检验统计量:H0成立时,多组概率相同,均近似地等于合并计算的概率,由此得到各格的理论数,
3. 确定P值 查附表8
自由度为:ν=(行数-1)(列数-1)=(3-1)(2-1)=2
4. 结论:按α=0.05水准,拒绝H0,接受H1,差别有统计学意义。可认为三种剂量镇痛有效的总体概率不同。
对于比较多组独立样本的χ2检验,拒绝H0只能说明各组总体概率不全相同,即多组中至少有两组的有效概率是不同的,但并不是多组有效概率彼此之间均不相同。若要明确哪两组间不同,还需进一步作多组间的两两比较。
4个处理组间,两两比较有6种对比,需根据比较的次数修正检验水准。例原检验水准为α=0.05,进行4组间的两两比较,共比较6次,于是两两比较的检验水准应取α=0.05/6=0.0083
不同剂量有效概率间的两两比较结果
对比组 | 四格表χ2值 | P值 | 检验水准修正值α | 检验结果 |
1.0vs2.5 | 4.38 | 0.036 | 0.0167 | -- |
1.0vs5.0 | 7.19 | 0.007 | 0.0167 | * |
2.5vs5.0 | 0.54 | 0.463 | 0.0167 | -- |
α =0.05/3=0.0167
第四节 配对设计下两组频数分布的χ2检验
一、二分类情形—2×2列联表
例7-6 设有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌的生长情况,结果如下表。试问两种培养基上白喉杆菌的生长概率有无差别?
两种培养基上白喉杆菌的生长情况
甲培养基 | 乙培养基 | 合计 | |
阳性 | 阴性 | ||
阳性 | 22 | 18 | 40 |
阴性 | 2 | 14 | 16 |
合计 | 24 | 32 | 56(固定值) |
两变量阳性率比较的一般形式和符号
变量1 | 变量2 | 合计 | |
阳性 | 阴性 | ||
阳性 | a | b | n1 |
阴性 | c | d | n2 |
合计 | m1 | m2 | n(固定值) |
1.建立检验假设并确定检验水准
H0:两种培养基上白喉杆菌生长的阳性概率相等 H1:两种培养基上白喉杆菌生长的阳性概率不相等α=0.05
2. 计算检验统计量:若H0成立时,白喉杆菌生长状况不一致的两个格子理论频数都应该是(b+c)/2
b+c<40时
本例:
3. 确定P值 查附表8 ν=1
4. 结论:按α=0.05水准,拒绝H0,接受H1,差别有统计学意义。可认为两种培养基上白喉杆菌生长的阳性概率不相等。
二、多分类的情形—R×R列联表
例7-7 对150名冠心病患者用两种方法检查室壁收缩运动的情况,检测结果见下表,试比较两种方法测定结果的概率分布有无差别?
两种培养基上白喉杆菌的生长情况
甲法测定结果 | 乙法测定结果 | 合计 | ||
正常 | 减弱 | 异常 | ||
正常 | 60 | 3 | 2 | 65 |
减弱 | 0 | 42 | 9 | 51 |
异常 | 8 | 9 | 17 | 34 |
合计 | 68 | 54 | 28 | 150(固定值) |
配对设计下多分类资料的R×R列联表
变量1 | 变量2 | 合计 | |||
1 | 2 | … | R | ||
1 | A11 | A12 | … | A1R | n1 |
2 | A21 | A22 | … | A2R | n2 |
… | … | … | … | … | … |
R | AR1 | AR2 | … | ARR | nR |
合计 | m1 | m2 | … | mR | n(固定值) |
H0:两变量的概率分布相同 H1:两变量的概率分布不相同 α=0.05
H0:两种测定方法检查结果的概率分布相同 H1:两种测定方法检查结果的概率分布不相同 α=0.05
故尚不能认为甲法测定结果的概率分布与乙法测定的概率分布不同。
第五节 χ2检验要注意的问题
1、 χ2 检验要求理论频数不宜太小,一般认为不宜有1/5以上格子理论频数小于5,或一个格子的理论频数小于1。对理论频数太小有三种处理方法:A 增大样本例数 B 删除理论数太小的行或列 C 合并
2、当多个样本率(或构成比)比较的χ2 检验结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说它们彼此间都有差别。或某两者间有差别。
3、R*C表的分类及其检验方法的选择
R*C表可以分为双向无序、单向有序、双向有序属性相同与双向有序属性不同4类。
①双向无序R*C表 R*C表中两分类变量皆为无序分类变量对于该类资料:A 若研究目的为多个样本率(或构成比)比较,可用行*列表资料的卡方检验;B 若研究目的为分析两个分类变量间有无关联性及关系的密切程度时,可用行*列表资料的卡方检验及Pearson列联系数进行分析。
②关于单向有序列表的统计处理。有两种形式。一种是R*C表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序,其研究的目的是分析不同年龄组的构成情况,此资料可用卡方检验。 另一种是R*C表中的分组变量(如不同疗法)是无序的,而指标变量(如疗效按等级分)是有序。在比较各效应有无差别时宜采用第九章的秩和检验法,如作 检验只能说明各处理组的效应在构成比有无差别。如下表:
三种药物治疗百日咳疗效比较
组别 治愈 好转 无效 合计 |
中药 68 27 13 108 西药 33 31 35 99 中药+西药 41 31 29 101 合计 142 89 77 308 |
③双向有序属性相同的R*C表 R*C表中两分类变量皆为有序且为属性相同。实际是2*2配对设计的扩展,即水平数大于等于2的诊断配伍设计,如两种方法同时对同一批样品的测定结果。其目的是分析两种检测方法的一致性,此时宜用一致性检验(也称Kappa检验)。如想分析两法测定结果的概率分布有无差别,宜采用今天所介绍的 检验
④双向有序属性不同的R*C表 R*C表中两分类变量皆为有序,但属性不同。A 若目的为分析不同年龄组患者疗效之间有无差别,可把它视为单向有序R*C表资料,选用秩和检验;B 若研究目的为分析有序分类变量间是否存在相关关系,用卡方检验或等级相关。
4.关于似然比χ2统计量
似然比(Likelihood ratiochi-square)χ2统计量
自由度的确定方法和临界值与Pearsonχ2统计量一致
理论上,当样本量相当大时,Pearsonχ2统计量和似然比χ2统计量都接近χ2分布;样本量不够大时,都偏离χ2分布;两者的数值不同,但接近。
第六节 四格表的确切概率法
基本思想:在四格表边缘合计固定不变的条件下,利用下列公式直接计算表内四个格子数据的各种组合的概率,然后计算单侧或双侧累计概率,并与检验水准α比较,作出是否拒绝H0的结论。
例7-8 将23名精神抑郁症患者随机分到两组,分别用两种药物治疗,结果见下表,问两种药物的治疗效果是否不同。
两种培养基上白喉杆菌的生长情况
分组 | 治疗效果 | 合计 | 有效率% | |
有效 | 无效 | |||
甲药 | 7 | 5 | 12 | 58.3 |
乙药 | 3 | 8 | 11 | 27.3 |
合计 | 10 | 13 | 23 | 43.5 |
1.建立检验假设并确定检验水准
H0:两种药物治疗效果相同,π1=π2 H1:两种药物治疗效果不同,π1≠π2 α=0.05
2. 计算概率 p1=0.583,p2=0.273, p1- p2=0.310
在边缘合计不变的条件下,可能还有其它组合的四格表比当前情况更极端,即两组间差异比当前的绝对差异0.310更大。计算所有比当前四格表更极端情况的概率P。
各种组合的四格表计算的确切概率
四格表序号 | 有效 | 无效 | p1 | P2 | P1- P2 | P |
1 | 7 3 | 5 8 | 0.583 | 0.273 | 0.310 | 0.114224 |
2 | 8 2 | 4 9 | 0.667 | 0.182 | 0.485 | 0.023797 |
3 | 9 1 | 3 10 | 0.750 | 0.091 | 0.659 | 0.002115 |
4 | 10 0 | 2 11 | 0.833 | 0.000 | 0.833 | 0.000058 |
8 | 3 7 | 9 4 | 0.250 | 00636 | -0.386 | 0.063458 |
9 | 2 8 | 10 3 | 0.167 | 0.727 | -0.560 | 0.009519 |
10 | 1 9 | 2 12 | 0.083 | 0.818 | -0.735 | 0.000577 |
11 | 0 10 | 12 1 | 0.000 | 0.909 | -0.909 | 0.000001 |
3. 确定P值 (本例为双侧检验)
|P1-P2|≥0.310的8个四格表的P值相加,得累计概率P=0.214>0.05。
4. 结论:按α=0.05水准,不拒绝H0,两组药物疗效的差别无统计学意义。尚不能认为两药治疗精神抑郁症的效果不同。