同学们,大家好,我们接下来呢再看一下在病例对照研究中
当我们经过前面的这种严谨地设计和认真地资料的
收集工作之后呢,我们就进入到了这个数据的整理分析阶段
那么在数据整理过程中,我们首先要看一下,这个到底是一种什么
样的数据类型,那我们对这种数据应该用什么样的分析方法,那就涉及到呢 我们需要对推断性分析有各种各样的类型进行学习。
还有呢在这个分析过程中呢 就涉及到各种统计指标它的这个使用,还有呢这些指标的计算
那我们首先呢来一起看一下最简单的,不匹配 不分层资料的这种,它应该如何进行分析
不匹配不分层资料,我们在前面的课上已经提到了
那么可以呢,首先把它整理成四格表,像这个样子的四格表 那么 a, b, c, d。
那以我们前面讲的反应停 与短肢畸形的案例来看呢,那在这个例子里面
总共呢病例组是 50 例,那对照组呢是 90 例,病例组里面
有短肢畸形的那有 12 例,这 12 例呢就是我们那 4
个表里的 a 那么病例组里面呢它没有发生短肢畸形的有 38
例,这个就是我们那个 4 个表里的 c 对应的,那在对照组里面呢有
2 例有短肢畸形,它就是 b 没有的 88 例呢是 d。
这 4 个格子的数据有了 之后呢,当然我们还可以看一下它边缘的合计数
那病例组这个边缘的总的合计 50 ,对照组呢是 90
而所有有用药的人的边缘合计数呢,这是 14 例
没有用药的,在整个研究人群里面呢有 126 例。
这样总的 这个对照病例研究一共呢是 140 个研究对象
那这样的一个四格表构建了之后呢,我们接下来就可以 呢去做相应的这些统计学的这些分析。
那我们首先 需要考虑的是什么呢?这个病例组和对照组,这两个组之间
它们在反应停的使用上,也就是反应停的暴露率上,是否存在差异。
而这种 暴露率是否有无差异呢?因为它是一个二分变量的这样的一个率的指标的分析
我们通常呢,在统计上呢是用的卡方检验,考察的就是暴露,也就是反应停
的服用和这个结局事件疾病,也就是短肢畸形之间是否有统计学的关联
那么根据统计学上面的卡方检验,就是最一般的卡方检验的这种公式
呢也很简单,大家可以看到这里给它列出来了,那么就是交叉乘积相减 那么我们用 ad 相乘减去
bc ,给它再平方,乘上总的例数 140 ,这个就是我们的分子。
分母呢,就是 4 个边缘合计数 也就是总病例、 总对照、 总的用药人数、
总的不用药的人数, 4 个边缘合计数相乘 呢是作为分母。
这个就是最基本的乘组的卡方的计算的公式
那同样以这个案例来看,我们可以给它进行计算,它的 卡方值也很简单,用
12 乘 88 减去 38 乘 2 ,平方 总的例数呢 140
,那底下 4 个边缘合计呢分别是 14, 126 50,
90,这样我们算得的卡方值是 16.94
那么再根据统计学上卡方分布,它有一个界值表。
当 P 等于 0.001 的时候呢的卡方值应该是 10.83
而我们现在这个研究的案例算出来的卡方值是 16.94
它大于在 0.001 水平上的那个卡方界值 10.83
那对应的呢,它的 P 值就小于 那个,这个卡方界值的对应
P 值,那么所以我们这个研究得出来的 P 是 小于 0.001 的。
那我们大家都知道,我们在研究最初的时候呢 我们设定的 α,也就
I 类错误的水平呢是 0.05,那现在它 P 已经 小于
0.01 了,因此这个研究我们可以得出结论呢,它是拒绝无效假设
无效假设就是,什么是无效假设,就是我们认为暴露跟这个 事件的发生跟结局发生是没有关系的,但我们现在
P 已经小于 0.001 我们就有理由呢拒绝无效假设,我们接受它们之间有关系的 这个备择假设。
那我们就的出来这样的,通过卡方检验,得出来结论呢
就在这个两个组之间,在暴露率,也就是在反应停的服用方面
它的差异是有统计学意义的,那既然有了统计学意义,也就是说统计学上它们是有关联的
接下来那我们就要了解一下,这个关联强度有多大,那么这种考察关联强度大小的方法呢
咱们在队列研究大家已经学习过了,用的呢是相对危险度 那我们在队列研究里面,相对危险度的计算呢,可以
直接获得,因为我们首先是从一组暴露的人里面我们随访观察
看看里面其中有多少人发病,我们可以直接获得暴露组的发病率
同样呢,我们也可以得到,在没有暴露,比如说没有服药的人群里,会有多少人发生这样的问题
我们可以得到未暴露组的,就是非暴露组的发病率 那这两个发病率的比值就是相对危险度
这个呢是在队列研究设计,我们可以直接获得相对危险度。
但是呢,我们现在讲的是 病例对照研究,那么病例对照研究大家知道,我们研究的起点是已经发生了
这样的一些病例,结局事件的人,这些病人已经出现了。
我们其实并不知道 些个病人是来自一个多大的人群,在多少个服药的人里面产生了这样的
一些短肢畸形。
所以在病例对照研究的时候呢,如果我们不是以社区为基础
的病例对照,我们是做的以医院为基础的,那么在通常情况下,我们是 得不到发病率这样的一个指标的。
那因此呢也就没有办法 直接估计它的相对危险度,那这样的时候我们怎么来估计它的关联
强度呢?只能呢找一个替代的指标,那么这个替代的指标就是叫 比值比, OR
Odds Ratio,我们用这样的一个指标
来近似地来替代它们的相对的风险大小 那这个为什么比值比它可以替代呢?主要的原因
就是在这个比值比的计算中,我们首先 需要呢考虑这个比值。
所谓比值,也就是说一个事件 发生的概率和不发生的概率相比,这个叫比值
那以我们这个研究为例,那么在暴露组,也就是服药的这个人里面
有多少人会发生短肢畸形,这个概率有多大呢?那我们可以看 一下暴露组的这个患病比值。
那我们就很简单,在四格表里面 那么服药的这个人里面,有,有这个
a 这么多人,他是患病 当然呢,在这里面呢还有 b 这么多人不患病,那我们这两个算下来
发生疾病,不发生疾病的比值,那我们算下来就是这个 a 除 n1,再除上 b
除 n1,分子分母,就上面是暴露组的患病比值,下面是非暴露组的患病比值
它俩两个比值再相除得到的呢, a/b 得到的就是暴露组的患病比值。
同理呢,我们也可以看 一下,在没有暴露组里面,它的患病比值是什么
那这样同样呢,就 c 除 n0 比上 d 除 n0。
大家可以看,在这里面呢 n1 都有, n0
也都有 那么它们相同可以呢,就是相约给它除掉,所以暴露组的患病比值就是
a/b 而非暴露组的患病比值就是 c/d。
那这个两个比值出来了,比值比是
什么?就是暴露组的患病比值比上非暴露组的患病比值,我们用这两个
比值来近似地替代它的发病率。
由此呢,这个比值比就是它俩再相除 那么,这两个相除除下来 OR
就等于什么呢?大家一看,分子分母 一交叉,最后呢就是
ad/bc 也就是在我们四格表里面,交叉相乘积再相除,是这样的一个关系。
当然,在我们 做这样的一个近似的替代的时候呢,它对这个疾病的
患病率呢还是有一个要求,它不能太高,如果太高的话 这个等式,这个近似的替代是不成立的。
但是一般来讲 我们在做这些病例对照研究,尤其是像这样的一些罕见病
疾病的患病率是极低的,那么我们可以用这种方法来做近似的这种替代 那这样的一个,这样的一个 OR
值,也就是用它来近似的来替 代这个相对危险度,比值比呢它的含义和这个
RR 值的含义是一样的 就是当它等于 1 的时候,我们认为暴露和疾病之间没有关联。
如果它大 于 1 ,就是一种正关联,认为暴露的存在增加了疾病的发生风险
那么这个这个叫危险作用,当然也可能是小于 1 的,如果小于
1 也就是它们之间是一种负关联,那也就意味着呢,这个因素的存在
能够降低疾病的发生,那自然就是一种保护作用 这个呢是跟,相对危险度的含义是完全一样的
那,当然在,咱们在前面也一再地强调过,那仅仅算一个点估计 值,一个
OR 值还不够,我们需要看,因为一个点估计值只是一次研究的结果
那你这样的一个结果,你如果在人群中重复的开展这个研究,它会是在一个什么
范围内进行变异?它的变异程度有多大?在这种情况下呢我们就需要考虑 它的
95% 的可信区间或者叫可信线,这是考察它的
变异程度,看一看你的结果是不是可重复的?是不是可靠的? 那在这种情况下还需要进一步计算一个指标,计算它
95% 的 置信区间,或者叫可信线都可以。
那么我们有多种计算方法 现在在这个片子上,给大家列出来的呢,是一种自然对数的
转换方法叫 Woolf 法,也是根据这个人提出来的,以他的名字进行命名
那这块大家可以看出来啊,它的计算其实也很简单,就是 这个
4 个格子都取倒数,相加然后开方 乘上 1.96
,1.96 大家稍微有一点统计的概念都知道,它是 α 等于
0.05 的时候,我们取的那个介值是 1.96
,所以我们用这个相乘 那么最后呢,这个实际上给出来的呢,是它的一个一个变异的程度,那前面呢,我们还要给这个
点估计值,因为是自然对数转换,所以那个你算得的 OR
点估计值还要给它取一个对数 这两个相加减、 加减就代表了它的这个变异的范围,整个这个
数据算完了再给它取一个反对数,通过这种方法我们就可以 获得这个点估计值的
95% 的可信区间,当然 这个可信区间呢也有它的含义,那如果算得的结果是包含了
1 也就意味着呢如果你这样的一个研究在人群里去重复地
去开展的话,那么它可能有的时候会大于 1,有的时候会小于
1 那也就意味着它这个暴露和疾病之间的联系的这个 程度呢是不稳定的,那么它的 OR
值的意义比较弱,统计学的这个联系强度就不大 那如果它不包含 1,比如说都是大于 1
或者都小于 1,也就意味着呢我们重复的这个 研究它得出来的结果方向是一致的,那 OR
值的这个大小并不是由于偶然的 一个随机的错误造成的,那我们换句话说也可以接受,它是
存在这样的一种关联的,所以这个呢就是 95% 可信区间
它的一个基本的计算和它的这个、 这个取值范围的一种解释
当然在这里面这些公式呢实际上现在很多统计软件都是可以直接
把它这个结果给出来,大家只要理解了它的意义,那么懂得结果如何解说就可以
那同样再回到我们反应停和短肢畸形案例来看,那我们在这个例子里,它的 OR
值 那就是 12 乘 88 除上呢 2 乘 38,算得的结果呢 OR
值是 13.9 再用刚才的这个自然对数转换方法算得它的可信区间呢
是从 2.8 到 131.2,那这个结果在它的可信区间 大家可以看,它的 OR
的点估计值大于 1,可信区间大于 1 且不包含
1 那我们就可以下这样的一个结论,有服用反应停史的母亲
她生育短肢畸形儿的风险是没有服用的 这些母亲的 13.9
倍,大概是一个 14 倍 这么高的一个关联强度,那这个结果呢就给我们提示是一个非常强的这样的一个关联
那关于不匹配不分层资料呢,它的基本的一个推断 性的分析呢就介绍到这里,谢谢大家!