了解了针对一个变量的统计分析, 了解了单变量的特征描述、推论的统计显著性检验,
现在我们就可以考察两个变量之间的关系了。
两个变量之间的关系情况要复杂一些, 除了变量数量的增加,还有变量类型的影响,
幸运的是现在还没有变量层次的影响, 这一节我们讨论双变量分析。
两个变量之间,比如身高与体重之间的关系, 通常是身高越高,体重也越重,
如果两者之间的共变关系能够通过统计显著性检验, 在统计上就被称之为相关。双变量分析
就是探讨两个变量之间的关联关系的统计分析,
并用两种方式分析两个变量之间的关联关系。第一,相关分析,
考察两个变量之间是否具有共变关系,如果有,又有怎样的共变关系,
在统计上,是不是能够通过显著性检验。
第二,回归分析,如果两个变量之间是相关的,那么是不是线性的呢?
或者通过转换表现为线性呢?这就是回归分析,注意,在这里是广义的回归分析, 并不特指线性回归。
两个变量之间是否可以运用回归模型,还需要看是否满足运用回归模型的条件。
在这门课程中,我们只会提到双变量分析的相关知识, 不会详细地讲述。
这里讨论的就是索引性的线索, 给有兴趣,有必要进一步学习的同学提供一个入口。
相关是考察两个变量之间关系的初次假设,还记得社会调查与研究的目的?
那就是探讨事物之间的关系模式,要么进行描述,要么进行解释,要么既描述又解释,
无论是哪一个,对相关的考察是基础。
如果两个随机变量之间呈现出共变关系,那么它们之间可能相关,
相关分析在双变量分析中用于考察两个变量之间的共变关系。
来看一个简单的例子,假设有两个变量,健康用y表示,年龄用x表示。
调查数据显示,进入老年,也就是60岁以后, 年龄的变化与健康的变化呈现共变关系,
则x与y之间可能相关。
根据事实,随着时间的推移,人的年龄就会增大,而不是减小,
因此例子中说的年龄的变化指的就是年龄的增大, 健康的变化呢,指的是变差,不是变好。
对于这样的变化关系,我们可以简单地表示为y等于f(x),
这就是相关关系的基本表达形式。就是说 在60岁以后,身体的健康状态是年龄的函数,
至于是不是呈现出负相关,有多大程度的相关, 数据显现的相关在统计上是不是有意义,
都需要用数据进行分析和检验。
那么两个变量之间有多大程度的相关呢?
在相关分析中,相关系数是测量两个变量之间相关关系程度的参数。
举例子,简单相关,简单相关的相关系数用r表示,
是一个分数值,取值范围在负1到正1之间。如果等于0,
就是不相关,;如果大于0,就是正相关;小于0,就是负相关; 越接近于绝对值1,相关程度就越高。
分数的分子为把两个变量对应的观察值减去各自的均值后,
再相乘,再把每一个乘积相加; 分母呢,是用每一个变量的观察值减去变量的均值之后,平方再相加,
把两个变量的平方值加上,再相乘后开方。
这个分数值一定在负1到正1之间。
显然,这是连续变量之间的相关系数,又被称之为皮尔逊相关系数。
不同类型的变量之间的相关有不同的计算方法, 同学们在统计课程中就会学到,这里我们简要地提示
不同变量之间适用的相关系数,其中呢,定距变量包括了定比变量。
如果是两个定类变量之间,就采用Lamda系数, Tau-y系数;如果是两个定序变量之间,就采用
Gamma系数,dyx系数,或者Spearman相关系数; 如果是两个定距变量之间呢,那就采用
Pearson系数,又称r系数; 如果一个是定类变量,另一个是定距变量,则采用相关比率eta系数;
如果一个是定序变量,另一个是定距变量,也采用相关比率eta系数。
运用每一个系数的条件、计算方法 统计显著性检验方法在统计学课程中,都会有比较详细的讨论。
在相关关系探讨中,还有一种更加直接的方式,那就是列联表。
列联表常用来表示两个变量之间的关联关系,
如果用于多于两个变量的关联关系,表的形式就开始失去其直观性了。
还是看例子,假设有两个变量a和b;两个变量有若干个属性值,
则具有两个变量属性共同的值,就是表格中的
一个单元格里头的值,这样呢,两个变量不同属性交叉的值就变成了
表格中若干个单元格的值。正因为两个变量
之间的关系是通过交互分类的方式找到关联关系的。
因此,列联表又被称之为交互分类表。
在列联表的使用中,百分比表是常见的形式。这是因为
百分比表能够直观地展示每一个单元格的相对关系,
进而呢,让两个变量之间的关系一目了然。来看例子,在单变量的分析中,大家见过的表格。
第一个表是绝对值表,一眼看去能够直观地感受到不同地区、 不同性别之间的差异,可是不能够看出到底有多大的差异。
换一个方式,把绝对值转换为百分比。
我们来看行百分比,意思是看性别在不同地区的 相对比例。从表中无论是男性还是女性,
从经济发达地区到不发达地区,占比都在减少。可是不同地区之间女性占比的差距 要大于男性,这
这似乎暗示着越是经济不发达的地区,女性被录取的机会就越小,
至少我们得到了这样的直观感受,是不是真的如此,就需要进行相关分析了。
注意这里是假设的数据,不是真的数据。
此外每个地区的录取人数与考生人数也有关系, 因此更有意义的做法是用各区域的考生人数与
录取人数来比较。
如果相关关系是模式化的,也就是一个变量的变化引起另外一个变量的变化,
表现为某种模式,那么在两个变量中,就可以区分出自变量和因变量了。
如果能够区分出自变量和因变量,就可以运用回归分析来探讨两个变量之间的关系了。
回归指的是一个变量对另一个变量的影响,总会趋向于一个模式,
比如前面的例子,年龄对健康状态的影响。
如果没有特别疾病的影响,那么根据预期寿命,年龄对健康状态的影响
就会表现为某种模式,这里年龄是自变量,健康状态是 因变量。显然,影响健康状态的不仅仅是年龄,
还有每个人的疾病, 如此,年龄和疾病都会影响到健康状态。
那么年龄和疾病对健康状态各自又有怎样的影响呢? 假设疾病状态不变,这个时候健康状态的变化就只与
年龄的增长有关,这就是健康状态对年龄的偏回归。
不过在双变量条件下,还不存在偏回归的问题。
在双变量条件下,简单的回归模型可以表述为这样。在这个公式中,y是
因变量,β0是截距,β1是斜率,x是自变量,ε是误差。
当然建立回归模型是有条件的,那就是要满足高斯 假定,也即是高斯马尔科夫定律,这个定律一共有5个假定,
假定的具体内容同学们在统计课程中会学到。
简单回归模型, 被用来解释自变量的变化如何线性地影响了因变量的变化。
还是我们的例子,60岁以后,在控制其他因素的条件下,年龄的增长如何 影响了健康的衰退呢?这就是典型的回归问题。
如前所述,影响健康状态变化的显然不仅仅有年龄一个因素,还有更多的其他的因素,
可能比年龄的影响还要大,比如疾病。
如果是多个因素影响到一个结果,用回归模型模拟
就是多元回归。在这个公式中,每一个x就代表一个因素,ε也是误差。
每一个x的身边的β就是 因变量与该自变量的偏回归系数,在统计学课程中,
大家会从相关、偏相关开始,逐步学习到双变量、多变量的回归及其计算问题。
下边我们把这一节的内容做一个小结。
假设变量为随机变量,那么在现象上两个有共变 关系的变量之间,在本质上,是不是存在共变关系,就是
相关分析的应用情景。
相关分析的结果用相关系数表达;不同类型的两个变量之间如果相关, 则需要采用不同的相关系数和检验方式。
列联表是显示关联关系的直观表达形式,可以作为相关关系计算表达的 前置性分析工具。
回归,是在区分了自变量和因变量的条件下,对相关关系的 表达,也常作为因果分析的前置性分析。
这一节的内容就到这里,谢谢大家。