遗传学条件概率范文

导语：如何才能写好一篇遗传学条件概率，这就需要搜集整理更多的资料和文献，欢迎阅读由公文云整理的十篇范文，供你借鉴。

篇1

关键词：Shannon熵基因突变多样性

中图分类号：TP39 文献标识码：A 文章编号：1672-3791（2015）03（a）-0242-01

随着计算机技术和信息技术的发展，对复杂冗长的DNA序列的分析研究变为现实。如何分析这些数据，提取相应的特征量来描述生命体之间的联系，是近年研究的热门问题。通过近几年的发展，也开发出一系列对比软件，常用的有CLUSTRALW等软件。

该文拟提取出不同DNA序列的平均互信息AMI作为特征参数，通过多元统计的方法对DNA序列进行描述，进而可以进行分类，在遗传学、医学等领域广泛应用。此种方法的优点是计算简单且速度较快，对大量数据的处理非常方便且准确率较高。

1 平均互信息AMI

对随机变量M，事件m的自信息定义为：

其中p（m）是事件m发生的概率，自信息I（m）是事件m发生的可能性的一种度量，表示事件M=m发生时，事件m所含有的所能提供的信息量。

对随机变量M和N，M的事件m与N的事件n之间的互信息定义为：

其中表示在事件n发生的概率下m发生的条件概率。

根据上述公式，可以定义基因序列的平均互信息（AMI）：

其中为4种核苷酸A、C、G、T的集合，如果固定X在基因序列上的某一位置，则Y为X下游方向间隔k个位置的核苷酸。和是核苷酸为X和Y的概率。其中表示前一个核苷酸为X，下游方向间隔k个位置为Y的组合的个数，这样就表示X和Y间隔为k的联合分布概率。当k=0时，就表示了紧邻二联体核苷酸的概率，k=1时表示次紧邻二联体核苷酸的分布率[1]。

[2]就是基因序列的AMI，不同的k值对应不同的，对于每一个基因组，我们都能够得到一组向量，不同的基因序列，则可以得到不同的向量。

2 相关系数

在该文中我们选择的是pearson相关系数，又称为线性相关系数，它能反映两个数据集之间的线性相关程度。

令为两个向量和的Pearson相关系数，和代表的AMI各有k个分量（，，…，）和（，，…，）。

这是一个范围在[-1，+1]之间的数值，若相关系数为+1，表示两个数据集合之间呈现完美的正线性相关；若相关系数为-1，则表示量数据集之间是负线性相关；若相关系数为0，则表示两组数据之间没有线性相关性。

3 距离计算

根据相关系数，我们定义两种基因的AMI之间的距离为：

通过计算的距离可以看出各个物种与自己的距离为0，与其他物种的距离则根据进化关系的远近而不同。

4 聚类分析

通过计算不同物种两两之间的AMI距离，可以得到一个距离矩阵。对于这个距离，该文选用“ward”法即离差平方和方法进行聚类[3]。

5 K值选择

对于不同的基因组，首先提取各自序列的AMI的值，对于k值大小的选取，通过反复计算，认为取0到500是比较合适的。这样每种基因组就得到一个向量，共有501个分量。对于不同基因组的AMI向量，计算相关系数得到距离，两两相比较距离得到一个距离矩阵，对距离矩阵通过ward法聚类，最后得到结果。

6 具体应用

通过此种方法，可以很方便地对各类DNA序列进行分类和研究。该课题研究者对64种脊椎动物线粒体DNA绘制了生物进化树，进行分类进而构建它们之间的进化关系的应用。

参考文献

[1] Yuan Zhi fa，Zhou Jing yu，Guo Man cai，et al.Gene Diversity and Shannon Information Entropy.Animal[A]Biotechnology Bulletin，8（1）：353-358.

遗传学条件概率范文

篇1

热门标签

相关文章

相关期刊

遗传

遗传与疾病

遗传学报

国际遗传学

精品范文