[音乐]
[音乐]
[音乐]
[音乐]
[音乐] 同学们我们这一节课内容就是分子演化
里面的第三讲,也是最后一讲了。
核酸的演化速率和基因组学 在演化研究当中的应用。
应该也是比较难的一讲。
核酸演化的速率其实和蛋白质演化的速率差不多的。
它也就是一个时间、距离和速度的问题,对吧? 我们先来看一下,这个一些条件。
和蛋白质演化一样,你做核酸演化 研究的时候呢,也要有两个或两个以上的同源的序列,
一定是同源序列之间的比较。
刚才我们说了,直系同源、并系同源 它总的都在一个同源基因的大帽子底下。
然后再分直系、并系。
这个是前提,它必须是同源的。
每个核苷酸就是一个位点。
上一讲我们讲蛋白质每一个氨基酸是一个位点。
核酸里头呢就每个核苷酸是一个位点。
对那些编码蛋白质的基因来说呢,它的 起始密码子和终止密码子是不算的。
这个两个要去掉的。
先复习一下,真核生物里面, 编码蛋白质或者是tRNA、rRNA这些
RNA的基因的结构。
首先在它的5'端 它不能够翻译成蛋白质的。
所以我们把它叫做5'的非翻译区。
5'UTR。
那么在 3'端同样也有这样的一个区域。
是3'的非翻译区。
这些都不会在蛋白质的序列里面的。
然后每一个基因都有一个启动子。
是开关部分,它要起调控的作用的。
有的基因里面还有一些非编码的,我们把它叫做内含子。
叫intron。
这个在,跟exon是相对的。
exon是指那些编码蛋白质的区域。
intron是指非编码的区域。
所以你真正最后形成mRNA的话就是这些 外显子被剪接到、连接到一起。
是这样一个结构。
今天我们可能要介绍一些 intron啊、编码区啊这些工作。
所以给大家复习一下。
在核酸的演化速率的计算里面 它就比氨基酸更复杂一点。
有的人说它不就4种类型吗?待会儿我要讲它复杂在什么地方。
我们先看看碱基的替代, 它是分成不同的类型的。
我们看看都分成 哪些类型。
这是4个碱基,对吧?这是DNA的4个碱基。
首先我们看看第一种叫转换,英文叫transition。
什么叫转换?就是同类 碱基之间的互换。
比如说嘌呤、嘌呤之间、 嘧啶、嘧啶之间。
这叫transition,转换。
还有一种叫颠换,transversion。
是指 嘌呤碱跟嘧啶碱之间、嘧啶碱跟嘌呤碱之间 的互换。
这就类型不一样了,对吧?这是transition、transversion。
还有一个就是上一节课我也提到的,同义的替换。
叫同义替代,synonymous substitution。
就说你这个碱基的变换, 比如说A变成了C了。
它不影响 编码的氨基酸的改变。
这叫同义的替代。
那么还有一个就叫非同义。
Non-synonymous substitution。
你碱基的改变,就会改变它编码的氨基酸。
所以你一看这个碱基替代就有这么多种类型了是吧?
它确实是比 蛋白质的那个氨基酸的替代要复杂一点。
好,这是它的类型。
上一节课我们也说到,你分子演化其实涉及到很多的 运算。
有很多的数学模型。
每个数学模型后面都有一些假设的。
下面呢就给介绍 氨基酸替代速率的一些不同的模型。
首先最简单的,Jukes and Cantor's。
也叫JC模型。
这两个人的那个 缩写拿来。
它就是一个单参数的模型。
One parameter model。
它是指什么呢?就说 在核酸的每一个核苷酸的位点上,
它本来有个碱基,对吧? 这个碱基被另外一个碱基 所替代的速率等于alpha。
这个alpha是指所有的位点。
不管你是transition 还是transversion。
我们来看一下,也来画一个刚才那样的四方图。
是吧?这是4个碱基。
就说,这样的转换, 它的速率是alpha。
这样的颠换,它的速率也是alpha。
它就不分了。
就是one parameter model,一个参数。
这是最简单的一种。
它说每个位点碱基替代的速率这个 就等于3 alpha。
它有3个可能嘛,对吧。
这是单参数的。
还有一个呢,是叫 二参数。
它因为是Kimura提出来的,就Kimura Two-Parameter model。
又简称K-2。
K-2模型呢就是two嘛,对吧?有两个。
它指什么呢?就是碱基的转换和颠换以不一样的速率在进行。
Alpha是指同类碱基之间的。
也就是说转换 速率是alpha。
嘧啶到嘧啶、嘌呤到嘌呤。
这是以alpha这个速率在进行。
还有一个叫beta。
Beta是什么呢?是一个位点的碱基它被另一类的碱基所替代了。也就是说 嘧啶碱的话被嘌呤碱代替,嘌呤碱被嘧啶碱就是
颠换,对吧? 颠换的速率。所以它这个就把 转换和颠换两个速率给分开了。
转换alpha、颠换beta。
这叫Two-Parameter model。
也有人做了一下这个数学的模拟,看看这两个 它们的模型的区别。
相同的地方在什么地方。
不同的地方在什么地方。
假设不一样,这个都不用说的。
一个是说所有碱基的替代速率一样,一个呢就把它分成转换和颠换, 是不一样。
但还有一个呢,如果你时间无穷大, 作为这个前提。
也就是说如果你研究的这两个物种, 它们所含有的序列分化的时间无穷大,足够长,
这两个模型是趋于一致的。
它们确实有区别,待会儿我要举一个例子。
我个人比较倾向于用K-2模型。
我们再来看看其他模型。
除了刚才说的,这个太小了,我就给你们说一下,你相信我。
第一个是K-2。
第二个是4参数的模型。
第三个是6参数的模型。
第四个是9参数模型。
它这个就说这些参数其实是 有意义的。
它不是说闲的没事干给你弄这么多参数把你们搞晕。
它后面是有它生物学的含义的。
待会儿我要说到这些事儿。你就记住, 这个模型里头,其实是有它的生物学含义的。
它不光光是 单参数、2参数,它有4、6、9参数。
下面我们就要讲到这个核苷酸位点的 替代数。
还记得我们上次讲的, 蛋白质里面氨基酸的平均替代数。
这个是 Substitution number。
这也一样,在核酸的演化速率里面, 这个数也很重要,就是K。
我刚才说了,核酸要比蛋白质复杂得多。
你看看,这个刚才讲了什么替换的这个种类,又讲了它的这个速率的模型。
是吧? 现在再来讲,你又把它还要核酸再分开来,分成非编码区和编码区
一部分是它不编码这种蛋白质的、一部分是编码蛋白质的。
我们先来看看非编码区。
在非编码区里面,我们举两个例子哈。一个是JC模型的这个方法,你拿它来做你怎么算。
具体推导我也不说了啊,这个就更复杂一点。
它是这样一个公式,也是用自然对数 来解出来的。也同样它可能有一个这个
分布的规律,然后你列一个方程式,你把它解出来,K就等于这样。
这个P其实就是指,两个序列当中,发生碱基变化的比例, 比如说50%啊,70%啊,是指这个。
跟上一节课里面我们讲的蛋白质里面核苷酸的那个是一样的。
所以单参数,很简单,对吧,它就一个, 你就把它所有的变化算出来就行,你代到这个公式里面,你就能拿到这个
它的平均替代的数目。K-2模型呢,
就复杂一点了,因为它转换和颠换是分开算的,
记得吧,好,这个里头你看就出现了两个了,一个P,一个Q。
P是两个序列当中发生转换的碱基的比例。
而Q呢?就是两个序列当中,发生颠换的这个碱基的比例。
一个是transition,一个是transversion。
这两个你要分开算的,它复杂就复杂在这个地方。
我们来看一个实例。
这个实例是用人和一个叫鹰脸猴,很可爱的一个这个
灵长类,小动物,好可爱哈。
这个是老有同学问我,是不是两个头哈,其实它是两个个体,看上去像两个头。
好,我们是用它的编码胰岛素基因里面的一段非编码的
内含子来做的。它一共就163个碱基。
不同的碱基数呢,就是人和鹰脸猴比起, 有18个不一样的地方。所以你在
这个单参数里头,就是一个P值就行了。
你拿18除以163等于0.11, 你把它带到刚才的公式里面,把
自然对数你去查一下就能够得出来,这个K值等于0.119。
也就是说,平均每个位点的 核苷酸的替代数是0.119。
我们再来看K-2模型里头,它就要分了。
在这个18个不一样的地方,有14个
是transition,是转换,就同样类型的碱基之间的变化。
有4个是颠换,是不一样碱基之间的变化。
所以我刚才说了,我比较喜欢这个K-2,它也是简单,但是也反映了实际情况。
这个例子就可以看得出来,其实同类碱基之间的变化
还是比较多的。因为涉及到他们的键啊,有3个键的,有2个键的,
同类的它这个键数目是一样的。所以它变化起来就容易一点。
你就看实际的例子也是这样。14个是 转换,4个是颠换,对吧?很明显。
所以以后我要你们同学如果要涉及到一些这方面的研究的话,
建议你还是要根据你自己的情况,选一个比较符合你研究对象的模型。
单参数还是简单了一点。一般的运算,这个二参数就可以用。
这就看出来了啊。我们再看看它这个结果,K的话你看 你用二参数模型出来它就大一点了,K就等于
每个位点它的平均替代数就是0.122了。
这个我们后面还要再回到这个问题上来说,
为什么我觉得二参数好一点,这个数更接近真实一点。