Hi, 你好。今天咱们重点学习 直线回归与相关的SPSS软件操作。 打开数据data6-1。这个例子是 以体重指数为自变量,收缩压为因变量,进行回归与相关分析。 除了做为回归与相关分析以外,我们还要做预测。 当x等于3.5时, 对中年女性的收缩压进行预测。 在正式做分析之前,我们需要 先做一个散点图,看x、y之间是否有线性关系。 简单散点图。 我们可以双击散点图,拟合一条直线, 可以看到体重指数与收缩压之间有一个正相关的线性趋势, 所以考虑用线性回归与相关。 分析菜单,回归,线性, 因变量y,自变量体重指数x, 保存菜单里面保存预测值,未标准化的预测值,也就是yhat, 求预测区间,一个是均值的预测区间,一个是个体y值的容许区间。 输出结果如下,这个模型给出了 r,0.911,注意,在这里这个r给的是 相关系数的绝对值0.911。 r平方也就决定系数是0.830。 调整r平方0.818。 在多元统计里边,我们会详细介绍调整r平方这个指标, 在这里边仅仅作为一般了解。 标准估计的误差,在这里实际上给的就是残差标准差, 或叫剩余标准差,5.947。 这个表格给的是方差分析表,是对回归模型的检验。 回归平方和,残差平方和,以及总平方和,分别给出SS均差平方和,自由度, 均方,f值和p值,p值小于0.05, 说明回归直线方程是有统计学意义的。 下面给出的这个表格是很重要的, 我们可以写出直线回归方程yhat等于 40.597加上30.274乘以体重指数。 对应的还给出了标准误,以及 标准化的回归系数。 标准化回归系数的含义,我们在这里仅作为一般了解, 它是指的是把原始的x,y进行标准化变换之后, 再做回归方程,所得到的回归系数就是标准化回归系数。 回归系数的t检验,8.264, p小于0.05,大家在这里边注意,这个t检验,p小于0.05 也说明回归直线方程是有统计学意义的。另外, t的平方等于f值,这两个检验, f检验和t检验是等价的。 我们回到原始数据库,会发现数据库里边产生了很多新变量。 在这里边,我们要了解下这些变量的含义。 PRE-1是什么含义呢?是非标准化的预测值,也就是yhat。 这两个区间呢,这代表的是 均数的置信区间的下限,这代表的是均数置信区间的上限。 这代表的是个体y的容许区间的下限, 个体y的容许区间的上限。我们回到数据库, 可以看到对于每一个x值, 软件都算出来了相应的预测值,以及预测区间。 当然我们关心的是当x=3.5的时候, 对应的预测值和预测区间。这个结果怎么解释呢? 当体重指数等于3.5时, 中年女性的平均收缩压为146.5, 平均收缩压的95%置信区间为143.3 到149.7mmHg。 当某名中年女性体重指数为3.5时, 其收缩压的95%的波动范围为 133.4到159.7。 好,我们接着学习一下spearman等级相关的应用。 打开数据库data6-4a。 这个例子是探讨儿童发硒与大骨节病之间的关系。 x是阳性率, 就是大骨节病x现的阳性率,y是发硒。 因为这两个变量都不服从正态分布,所以考虑用spearman等级相关系数。 分析菜单,相关,双变量相关, 选择spearman等级相关。 可以看到发硒与阳性率之间 有负相关关系,-0.917。 p值是0.001,代表二者之间有负相关,而且是一个高度负相关。 我们再看一个例子,打开数据库data6-4b。 这个例子是研究硅沉着病的期次与肺门密度级别的关系。 x是硅沉着病期次, 1,2,3,分别代表期次1、2、3期。 肺门密度,用1,2,3代表肺门密度是逐渐增加的。 这个是个行乘列表,而且航变量和列变量全部是有序变量。 我们也可以用spearman等级相关,程序时一样的。但在做之前,我们需要先加权。 按freq进行加权。 然后,运行, spearman等级相关的程序,可以得到硅沉着病的期次 与肺门密度spearman等级相关系数为0.531,p值小于0.05, 二者之间是正相关的。 随着硅沉着病期次增加,肺门密度也是增加的, 这是一个中等程度的相关。 好,今天的内容就讲这么多。希望大家重点掌握 直线回归与相关的估计,以及直线回归的预测, 了解spearman等级相关系数的操作。谢谢!