一群变量值可能用平均数描述集中的位置,用变异指标描述离散情况,而频数表则把变量值的分布描绘得更具体。为了直观还可把频数表画成直方图。如第四章中曾将7岁男童坐高的频数分布绘成图4.1。从图中可看出数据集中均数周围,左右基本对称,离均数愈近数据愈多,离均数愈远数据愈少的特点。医学科研中如健康人的红细胞数、血红蛋白量、血清总胆固醇,同年龄同性别儿童的身高、体重等,虽然数据各异,但画出的直方图图形是类似的。可以设想,这种类型的资料,如果调查例数无限增多,所用组距又无限的小,那么直方顶端就连成了一条光滑的曲线。这条曲线,典型地反映了这类资料的分布情况,数学上称为正态曲线,其方程为
式中n为总频数,X为变量值,μ为均数,σ为标准差,Y为纵高,e=2.71828……,π=3.14158……。在一个总体中n、μ、σ、e、π都是常数,只有X在变,所以Y=f(x)。
式(5.1)亦可写成:
由上式可看出曲线的性质:
1.曲线左右对称。X-μ无论是正或负,只要绝对值就相等,Y值就相等。所以只要X与μ的距离相等,Y就相等。Y值以X=μ为对称轴。
2.中位数、均数、众数重合。正态曲线在横轴上方。当X=μ时,e0=1,Y为极大,所以均数与众数密合。由于曲线左右对称,所以均数亦即中位数。e的指数愈大,Y愈小,但不会得负值,所以Y>0,曲线在横轴上方。
3.随着(X-μ/σ)的绝对值的增加,曲线由平均数所在点向左右两方迅速下降。
4.离平均数左右1σ处为曲线拐点。在μ±σ以内曲线向下弯曲,以外则向上弯曲。
这种类型的资料,数据值虽各不相同,但都有其均数与标准差,如果横轴上各以其均数为原点,标准差为单位,并令x=X-μ,那么(X-μ)/σ可写成x/σ,称为正态离差u,
(5.2)
再令总频数为1。这时曲线以μ为原点,以σ为单位,称为标准正态曲线,其公式为
(5.3)
以μ为均数,σ2为方差的正态分布可记为N(μ,σ2),因此标准正态分布可记为N(0,1)。
图5.2 标准正态曲线