Hi,你好,我们紧接上节的内容来学习直线回归的应用。
首先是预测。直线回归可以用于预测,有两种情况。
一种是Y的均数的95%置信区间的估计。
第二种是个体Y值的95%容许区间的估计。
首先我们学习Y的均数的95%置信区间的估计。
当给定X为X0时, 以95%的概率估计Y的均数的置信区间。
当然在这里边,这个均数实际上是条件均数,
这个置信区间的公式比较复杂我们可以先作为一般了解。
ŷ加减t界值乘以ŷ的标准误, Yhat标准误又等于顺义标准差乘以根号下
n分之1,加上分母是 x的均差平方和,分子带的是X0,给定的X0,
减去X均数的平方。我们重点
理解这个置信区间的含义。以前面的例子为例, 我们计算出来的这个置信区间的含义是什么呢?
它是指的是当中年女性的体重指数为3.5时,
这个3.5是X0,给定的一个X值,
预测中年女性的平均收缩压95%置信区间是什么?
第二个就是个体Y值的95%容许区间。
它的含义是给定X等于X0时, 以95%的概率估计个体Y值的波动范围
是什么?计算公式我们同样作为一般了解。
我们比较这个公式跟前面的公式, 我们可以发现这个公式它的标准误
要比之前的公式标准误要大,意味着什么呢? 个体Y值95%的容许区间
要比均数的95%置信区间要宽。
为了更好地理解个体Y值的 95%容许区间的含义。我们还以前面的例子为例。
当某中年女性的体重指数为3.5时,也就是X取3.5时,
预测其收缩压的95%波动范围。
这就是个体Y值的95%容许区间的含义。
大家在实际应用的时候要注意掌握这两个预测区间的区别。
直线回归的适用条件,
缩写是LINE。它有四个条件:第一个是线性,
要求Y与X之间是线性关系,简称就是L。
这一点是比较好判断的,我们可以通过一个简单的散点图 来看Y与X之间是否有线性趋势。
第二个条件是独立性。所有的观测值在测定的时候都是相互独立的。
字母简称是I,独立性。这主要是由我们的研究设计所决定的。
第三个是正态性,要求Y服从正态分布,
英文缩写是N。第四点是方差齐性。
方差齐性是指的是对于所有自变量取值,Y的总体方差要相等,
英文字母是E。对于方差齐性的检验, 我们本科阶段的统计书是作为一般了解的。
大家以后在研究生课程中学习多重线性回归的时候 可以学习如何检验方差齐性。
应用直线回归的注意事项。
作回归分析要有实际意义。
对于任意一组X、Y,如果我们求直线回归方程,
通常可以求得一个直线回归方程,但它是一定有实际意义的吗?
不一定。作回归分析一定要根据专业知识 来决定是否需要作回归直线。
只能在建立回归方程时自变量取值范围内预测因变量,
不能任意外延。这是很重要的,因为超过自变量的取值范围,
X和Y是否是线性关系,我们是不知道的。
另外即使是线性关系,这种线性关系是不是发生变化了?
我们也是不确定的,所以预测只能够在自变量取值范围内进行预测。
在进行直线回归分析之前,应绘制散点图。
我们之前已经谈到,绘制散点图的作用是 通过散点图可以判断Y与X之间是有线性关系的。
散点图另外还有个重要的作用,它可以帮助我们发现异常点。
像这个散点,它拟合这条回归直线,
拟合效果是非常好的。在这里边我们要做一个变化, 把这一个散点的位置移动到这个位置,
移动到右下角,你可以发现,尽管其他散点的位置不变, 但由于这个散点的变化,
回归直线拟合就发生了变化。这两条回归直线
它的回归系数相差是很大的,这个点
就是所谓的异常点,或者有的书上把它称为突出点。
它对回归方程的估计影响是很大的,在估计回归方程 的时候,我们要慎重考虑是否需要把它剔除。
好,这次课的内容我们就讲到这里。
希望大家掌握直线回归的两种预测方法。
重点理解预测区间的概念,掌握直线回归的四个适用条件,
以及掌握直线回归的注意事项,下次课的内容 我们接着讲解直线相关。谢谢!