第五章 参数估计基础
第一节抽样分布与抽样误差
抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计推断。
统计推断包括两方面的内容:参数估计和假设检验
熟悉总体与样本、统计量与参数、误差与抽样误差
误差:泛指测得值与真值之差,样本指标与总体指标之差。误差按其产生的原因与性质分为两大类(系统误差和偶然误差)。
1.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定www.lindalemus.com/kuaiji/倾向性或规律性的误差。可以避免。
2.随机测量误差:由于多种无法控制的偶然因素引起,对同一样品多次测量数据的不一致。无倾向性,不可避免。只可控制在一定的范围内。
3.抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免
一、样本均数的抽样分布与抽样误差
均数的抽样误差:
由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。
抽样实验:假定从13岁女学生身高总体均数,总体标准差 的正态总体中进行随机抽样。
v 样本均数的分布特点:
1.各样本均数未必等于总体均数;
2.样本均数之间存在差异;
3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。
数理统计推理和中心极限定理表明:
1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>50),也近似正态分布。
2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为:
表 100个样本均数的频数表与标准误的计算表
身高组段 频数 组中值 fX fX2 |
152.6~ 1 152.9 153.2~ 4 153.5 153.8~ 4 154.1 154.4~ 22 154.7 155.0~ 25 155.3 155.6~ 21 155.9 156.2~ 17 156.5 156.8 ~ 3 157.1 157.4 ~ 2 157.7 158.0 ~ 1 158.3 |
合计 100 |
(标准误的理论值)
标准误的大小与σ的大小成正比,与n成反比,而σ为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。
σ未知,用样本标准差S来估计总体标准差σ。
(标准误的估计值)
用来表示均数抽样误差的大小。
例5-1 2000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L 。试估计该样本均数的抽样误差。
二 、样本频率的抽样分布与抽样误差
从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用表示:
π :总体率,n:样本例数。
当π未知时,p π(为样本含量足够大,且p和1-p不太小)
公式为:
:率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。
第二节 t 分布
一、t分布的概念
在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用来代替
也服从正态分布,, 服从标准正态分布N(0,1)
服从ν=n-1的t分布
二、t 分布的图形和t 分布表
t分布曲线特点:
1) t分布曲线是单峰分布,它以0为中心,左右对称。
2)t分布的形状与样本例数n有关。自由度越小,则 越大,t 值越分散,曲线的峰部越矮,尾部翘的越高。
3) 当 n→∞时,则S逼近σ,t分布逼近标准正态分布。t分布不是一条曲线,而是一簇曲线。
正确使用t界值表!
与单侧概率相对应的t值用表示,与双侧概率相对应的t值用表示。
由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值表示。
第三节 总体均数及总体概率的估计
一、参数估计的概念
统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。
点估计(point estimation)
参数估计
区间估计(interval estimation)
二、置信区间的计算
(一)总体均数的置信区间
1.点估计:
用样本统计量直接作为总体参数的估计值。
例如 于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。
,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。
同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。
2. 区间估计:按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间(confidence interval CI)。
预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。
可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。
2.置信区间的计算
(1)σ已知,按标准正态分布原理计算
由z分布,标准正态曲线下有95%的z值在±1.96之间。
95%的双侧置信区间:
99%的双侧置信区间:
通式:(双侧) Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2查的的t界值。
(2)σ未知但样本例数n足够大(n>50)时
由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t值约在±1.96之间,即
95%的双侧置信区间:
99%的双侧置信区间:
通式:(双侧)
例5-4 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。
该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm
(3)σ未知且样本例数n较小时,按t分布原理,此时
某自由度的t曲线下有95%的t值约在±t0.05(ν)之间,
95%的双侧置信区间:医学全.在线www.lindalemus.com
99%的双侧置信区间:
通式: tа/2,ν 是按自由度ν=n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数为,标准差S=15g/L,试问该地健康成年男性血红蛋白量的95%和99%置信区间。
本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素
1. 准确度:反映置信度1-α的大小,即区间包含总体均数的概率大小。
2. 精度:反映区间的长度。
在置信区间确定的情况下,增加样本例数,会减小 tа,ν 和,可减少区间长度,提高精度。
3.思考
(1)均数置信区间与参考值范围的区别
意义:
95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按计算。
95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本,按计算。
计算上:
置信区间用标准误,参考值范围用标准差。
(2)标准差与标准误的区别与联系
区别:
1)概念不同:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。
2) 用途不同:标准差常用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,可估计参数的可信区间,进行假设检验。
3)与例数的关系不同:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大而减小,甚至趋向于0。若样本含量趋向于总例数,则标准误接近于0。
联系;
二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。
(二)、总体概率的置信区间
总体概率的置信区间与样本含量n,阳性频率p的大小有关,可根据n和p的大小选择以下两种方法。
1. 正态近似法
当样本含量足够大,且p和1-p不太小,则样本率
的分布近似正态分布。
公式为: P为样本率,为率的标准误的估计值,
例5-7 用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。
分析:本例样本例数较大,且样本率p不太小,可用正态近似法:
2. 查表法
当n较小,如n≤50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。
例5-5 某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。
注意:此表仅列出X≤n/2 的95%置信区间。
例5-6 某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。