嗨,你好。这周我们主要学习两组数值变量比较的假设检验。
今天我们先学习均数的抽样误差及总体均数的估计。
什么叫做均数的抽样误差?它指的是在抽样研究中,由于抽样所造成的
样本均数与总体均数之间的差异,或者样本均数之间的差异,
称为均数的抽样误差,简称为SE。为了更好地理解这个概念,
我们举一个例子。研究目的是调查某地1992年全体健康成年男性的身高。
我们从这个总体中随机抽取
能用的含量为150的样本。由于可能包含的个体不同,所以通常情况下这两个样本均数是有- 差异的。
这属于抽样误差。而且通常情况下, 样本均数与这个总体均数µ也是有差异的。
这也称为抽样误差。抽样误差是不可避免的。
造成抽样误差的根本原因是个体变异的客观存在。
抽样误差是怎么计算的呢?我们用标准误来衡量抽样误差的大小。
这有两个公式。标准误,标准差除以根号n 第一个公式是标准误的精确值。
由于总体标准差通常是未知的,所以一般用样本标准差来代替 得到标准误的估计值。
注意标准误的这个符号与标准差很类似,但它有一个下标。
样本均数 所以,标准误有另外一个意义。它也可以称为样本均数的标准差。
我们举例子来说明标准误的计算。
从这个整体中随机抽取一个样本,均数为171.5,标准差为6.5
得到标准误的估计值为标准差除以根号n,等于0.53.
均数除以误差的性质 标准误与标准差成正比,与样本含量的平方根成反比。
因为标准差一般是比较稳定的,所以标准误也就是抽样误差
主要与样本含量有关。实际工作中,减少抽样误差的有效办法是增大样本含量。
我们接着讲解t分布。
从一个正态分布的整体中随机抽取样本含量为n的样本,
样本均数也是服从正态分布的。把样本均数当成一个随机变量
减去µ,µ是样本均数的总体均数,再除以样本均数的标准差,
也就是除以标准误,
可以得到一个z值,它应该服从一个标准正态分布。
但我们曾经提到过, 总体标准差一般是未知的,
所以标准误的精确值一般也是得不到的。实际工作中,通常
得到的是标准误的估计值,那么这个式子就服从了t分布。
而且是自由度为n-1的t分布。
t分布的性质有哪些呢? 我们可以通过这个图来看。
与标准正态分布不同,标准正态分布是均数为0,标准差为1的一条曲线。
t分布是一组曲线。它是与自由度有关的。
而且,随着自由度的增大,t分布接近标准正态分布。
对于这条曲线,如果中间包含95%的面积,那么
两侧的界值称为0.05的t界值。
它所对应的外侧的尾测面积之和为0.05.
如果有一个t值,绝对值大于0.05的t界值,
那么所对应的尾测面积之和应该是
小于0.05的。相反,如果得到的这个t值,
绝对值小于0.05的t界值, 那么它所对应的尾测面积之和
应该是大于0.05,所以记住这个特点。
我们在假设检验里面还要用到。
我们接着讲总体均数95%置信区间的估计,先看这个例子。
随机抽取40例居民进行膳食调查, 每人平均摄取蛋白质62.5克,标准差为5.6克。
这是样本均数,样本标准差。试估计该市区每人平均摄入蛋白质是多少?
这是要求估计一个未知的总体均数。
当然有个最简单的办法,我们可以用62.5 代替总体均数,这又叫做点估计。
这个方法很简单,但它是有缺点的。没有考虑抽样误差的影响。
所以我们要提供一个更合理的办法,这就是置信区间。
什么叫置信区间呢?根据样本均数计算出有1-a的把握
包含总体均数的一个数值范围,这个数值范围就称为总体均数的置信区间,
1-a称为置信度,我们最常用的是a取0.05, 估计总体均数95%的置信区间。
我们采用这个公式来计算置信区间,均数加减,t界值除以标准误
这个t界值是自由度为µ的双侧t界值。
上述的例子里边可以查到t界值为2.023,得到相应的置信区间为
60.71到64.29克,
大家可以计算一下。对于置信区间的计算需要注意,置信区间的估计是有概率性的。
这意味着如果你要求95%的置信区间,得到的这个区间 它计算的正确概率只有95%,
另外有5%的可能性,估计的这个置信区间是错误的。
好,今天的内容我们就讲到这,希望大家重点掌握均数抽样误差
的概念,掌握总体均数95%置信区间的估计,
下一次课我们介绍假设检验的基本原理,谢谢。