Hi,你好,我们紧接上节的内容,接着介绍直线相关。
直线相关是用于描述具有直线关系的两个变量之间的相互关系。
相关系数,小r,它又称为积差相关系数或Pearson相关系数。
相关系数是用来衡量有直线关系的两个变量之间相关的密切程度和方向。
它是没有单位的,取值在负1到1。
我们介绍几个相关类型。正相关,相关 系数大于0,X、Y呈同向变化。
这个图随着X增加,Y也有增加的趋势。
这个图所有的散点在同一条直线上,称为完全正相关。
负相关,相关系数r是小于0的,X、Y是呈反
向变化的。看这个图,随着X增加,Y是减小的。
像这个图,所有的散点在一条直线上,称为完全负相关。
当然实际工作中,完全正相关和完全负相关是比较少见的。
零相关。相关系数等于0,X、Y是没有线性相关关系的。
我们可以看几个图,像这个图,X和Y之间,它的分布是没有规律的。
这个图随着X增加,Y是不变的, 或者X不变,Y是变化的。
注意这个图,随着X增加,Y是先增大后减小。
注意X、Y之间没有线性相关关系, 相关系数等于0,但是它是有曲线相关关系的。
相关系数的估计。如何来估计相关系数呢,我们给出相应的计算公式。
相关系数等于X、Y的均差积和除以根号下
X的均差平方和乘以Y的均差平方和,可以简写成 lxy,除以根号lxxlyy。
。
相关系数,我们求的小r,它为样本相关系数,
同样存在抽样误差的问题。我们需要检验总体相关系数ρ是否等于0, 来判断两个变量之间是否存在相关性。
H0为ρ等于0,H1ρ不等于0,
用的是t检验,相关系数小r除以r的标准误,
其中r的标准误的计算是根号下1减r平方除以n减2,
t检验的自由度等于n减2,只有当 经过t检验,P值小于等于0.05,
拒绝H0,接受H1的时候,才能够认为β不等于0。
进一步根据相关系数的绝对值大小来判断相关的密切程度。
那么如果做t检验,p大于0.05,
相关系数的绝对值再大,都不能够认为两变量是存在相关性的。
直线相关的适用条件。
独立性,要求所有观测值是相互独立的。正态性,
两个变量X、Y服从双变量正态分布。
直线回归与相关有什么区别和联系呢?
我们先看区别。意义是不同的。我们可以从回归与相关的概念
来看,相关表达了两个变量之间相互关系的密切程度和方向。
而回归表达两个变量之间的数量依存关系。已知X可以预测Y。
资料要求不同。在资料要求上回归只要求Y服从正态分布,
它称为I型回归。可以得到一个回归方程ŷ等于a加bx,
而相关要求X、Y服从双变量正态分布,如果要进行回归
的话,称为II型回归,可以得到两个回归方程。
我们可以由X推Y得到一个回归方程, 也可以由Y推X,得到另外一个回归方程。
回归与相关有什么联系呢?相关系数 小r与回归系数b的符号一致,同正同负。
我们可以根据他们的计算公式,可以发现 相关系数与回归系数的正负号取决于分子lxy,
即xy的均差积和。相关系数r与回归系数b的假设检验是等价的,
它们的t检验的公式是等价的。
对应的概率P值是相等的,这意味着回归系数的假设检验 有统计学意义,相关系数假设检验也一定有统计学意义。
可以用回归解释相关。
我们提出一个重要的概念叫r平方。
相关系数的平方称为决定系数。
它等于SS回除以SS总, 这是什么含义呢?决定系数也就是相关系数的平方,
反应了回归平方和占总平方和的比例。
其越接近于1,回归直线拟合的效果越好。那
有一个极端的情况,如果r平方等于1,意味着什么?
r平方等于1,意味着回归平方和与总平方和是相等的。
剩余平方和等于多少呢?剩余平方和等于0,相当于是没有误差的。
好,今天的内容我们就讲到这, 希望大家掌握相关系数的估计,假设检验,理解
直线回归与相关的区别与联系,重点掌握决定系数的含义。
下节课我们接着讲解秩相关。谢谢!