【北大课程学习笔记】关于同源、相似性、相似性矩阵和点阵图

发布时间 : 2019-01-17来源 : 中关村华康基因研究院浏览次数 :

大家好，本次是一个普通学习总结，主要目标在于澄清以下一些概念及应用建议。

首先澄清一下同源性和相似性，然后再介绍一下相似矩阵，及常常用于序列比对的打分矩阵。最后介绍一下点阵图这种直观的序列比对示意图。同源性在生物学意义上就是指多个两个或多个东西具有共同的祖先，在基因序列的层次，特别是关于系统发育的研究中有时候还把同源分为直系同源和旁系同源。

直系同源是指在不同物种中的两个序列来自历史上的共同祖先和同一个序列，是因为物种形成事件而可引申到两个或多个物种中。旁系同源一般指在同一个物种中的两个序列在历史上来自同一个序列，是由于序列复制产生了多个拷贝，也可引申到多个物种中两个序列的关系。

这是基因直系同源、旁系同源概念的示意图。直系同源来自物种形成事件，例如图上动物、真菌的物种分化，人、线虫的物种分化。如果在演化过程中该基因没有丢失，这些物种形成事件就会使得在各物种中都存有祖先物种该基因的至少一份拷贝。例如图上HB和WB的关系就是直系同源关系。旁系同源来自于复制事件，经物种内部基因组成复制，如图上A B亚家族源于动物祖先物种中的复制事件。在人和线虫中又分别发生了两次和一次复制事件，并且产生HA1到HA3及WA1到WA2这样的旁系同源关系。然后就相似性和同一性。

相似性和同一性也是两个不同的概念，这里以氨基酸为例，根据氨基酸的性质，例如酸碱性、疏水性，或者有没有苯烷我们可以把氨基酸分成一些类别，同一个类别内的氨基酸可以认为是相似的。而同一性就是指A是A，G是G这样完全相同的关系。

同源性和相似性在生物学意义上有着千丝万缕的联系，两序列有同源性表示两序列曾来自共同祖先，如果演化时间不长，变化较少，那么两序列常常会表现出相似性。反之，如果演化时间很长，变化会越来越多，则两者的相似性可能就会越来越低，甚至无法分辨出来。由于同源性常常能带来相似性，而我们容易测量得到序列，比较序列的相似性。所以我们常常想根据序列的相似性反推或暗示它们的同源性。这种思路常常是有效且可行的，但它不保证100%的正确性。有时趋同进化也可能产生相似的东西，而这点在序列层面貌似并不多见。

我们刚才已经澄清了同源性和相似性的概念，下面的问题就是作为生物信息学怎么让电脑来寻找这些同源性和相似性呢？要让电脑来做这件，这件事首先要给它相似性的一种定量图量，这就是相似性矩阵或者俗称序列比对的打分矩阵。

对于核苷酸来说，只有四种核苷酸，所以在序列比对中我们常常用简单的单位矩阵基于对角线大于零且都相等的矩阵作为其打分矩阵。不过在系统发育时的同构共轭，工作中，大家常常会使用更复杂一些的碱基替换模型来更好地刻画碱基随演化改变的过程。包括我们一般认为嘧啶变为另一种嘧啶，嘌呤变成另一种嘌呤，会比嘧啶变为嘌呤或反过来变化更容易见到，即转换比替换更容易发生。对于氨基酸来说，虽然前面说的生化特性也给出了一些定性的相似性，但大家目前公认的定量相似性矩阵还是来自演化的思路，根据多序列比对来看实际生物序列中各种变化的频率。

首先是Margaret Davhoff 在1978年提出的PAM矩阵，和它只相差1%序列的的序列人工多，多序列比对起来，数出每种氨基酸变化的个数，建立PAM 1矩阵。然后根据之后各同学介绍的马尔可夫链的思想把PAM 1视为进化的一步进行矩阵自乘运算就得到适用于序列更大比例差异的打分矩阵。例如常用的PAM30，PAM70。后来1992年 Steven Henikoff和Jorja Henikoff用相似的思路又做了一下这样的工作。那时已知的多序列比对更多，当时有关注保守的序列段，并用差异度不同的多序列比对得到BLOSUM序列矩阵。

目前最常用的蛋白序列比对打分矩阵就是，可能就是BLOSUM 62矩阵。对于PAM矩阵为什么说PAM 1自乘可以得到适用于更大差异序列比对的打分矩阵？这可能需要用到马尔可夫链的思想和假设。矩阵自乘是指在转移概率意义上进行自乘，所以简要地介绍，介绍一下。例如这里图示的简化的示意例子，假设只有三种氨基酸A B C 如果演化一步即序列产生1%的差异的各种变化概率如这个表所示，那么演化两步的各种变化概率如何计算呢？考虑从A经过两步回到A的概率，其实就是从A一步到达A B或者C的概率，再乘以从相应A B C 一步到达A的概率，最后求和。类似地，从A经过两步到B的概率，就是从A一步到达A B，或者C 的概率再乘以从相应A B C一步到达B的概率，最后求和。

熟悉线性代数、矩阵运算的同学可能已经看出来了，这样的概率相乘再相加的计算过程恰好与矩阵的乘法的定义是一致的。这就是我们说(PAM 1)²可以得到PAM 2的原因。这里还需要注意的是PAM 2并不对应2%的序列的差别，再加上还存在回部突变，实际序列差别是小于2%了。类似地我们就可以自乘计算出PAM 30、PAM 70或者PAM 250。

这是PAM原始文献中的数据表以及如何自乘计算PAM 250打分矩阵的过程。最后我们常用的打分矩阵也等于刚才自乘串的转移概率矩阵，再算log odds的结果。

BLOSUM矩阵构建于90年代和PAM自乘计算不同，BLOSUM 62矩阵直接是从同异度不大于62%的多序列比对构建。类似地BLOSUM 80是基于同异度不大于80%的多序列比对。而BLOSUM 45即同异度不大于45%的多序列比对。因此在实际的序列比对应用中，如果你比对的序列差异大，可以考虑使用BLOSUM 45矩阵。或者如果序列之间差异小，那么可以考虑使用BLOSUM 80矩阵，最常用的还是BLOSUM 62矩阵。在给出了相似性矩阵之后，接下来的问题就是如何去寻找最优或较优的序列比对。

这里补充提一下直观的DOT Matrix展示方式。课上已经介绍过动态规划算法，我认为其本质是一种穷举。利用存储当前最优的结果迭代去寻找全局最优解。下节课应该会介绍BLAST，其实BLAST也会用到Dot Matrix的一些思想和启发。在NCBI的BLAST的结果中，也可以点击查看dot matrix。最基本的Dot Matrix就是把两个序列写到矩阵两边，然后标出对应残基相同的位置。于是就能产生一个0 1二则矩阵。

如果两序列完全相同，那么对角线肯定都是1。如上图。

如果有较长的子序列可以匹配，那么也可以看到远离对角线、平行于对角线的连线。

如果有反向的匹配，则可按照反对角线方向的连线。

如果两序列不全相同，有gap或miss，那么对角线就可能不再连续。

这是使得生物信息学程序，例如EMBOSS Spot Dot App，还可以设置一些参数。例，例如word size，使配出的结果可能更有生物学意义。 word size是指需要连续多少个残基挨个都匹配才开始匹配，前一页的例子相当于word size等于1。 Dot Matrix可能在形式上和动态规划别的矩阵接近，但其内容是有明显不同的。 Dot Matrix只关心local的几位碱基构成的word是否完全匹配，而动态规划则关心前面已考察的子序列的最优匹配法及得分。我们可以观察到一段较长的正向完全匹配的序列比对，在Dot Matrix上肯定表现为A段的连续的对角线方向的线段。 BLOSUM的算法中其实就有所考虑到这个特点，而且算法得到了加速。以上就是本次学习的全部内容，希望大家分享给大家能有所收获，谢谢。

上一篇 : 121种罕见病诠释（七）

下一篇 : 染色体微阵列分析技术（CMA）