全国电台音乐交流群

生物信息学中的统计方法(一)

合理用药百科2019-11-03 08:24:27

生物信息学(bioinformatics)是研究生物信息的采集、处理、存储、传播、分析和解释的一门学科,它通过综合利用生物学、数学、计算机科学和信息技术而揭示大量复杂的生物数据所蕴含的生物奥秘。

研究重点是基因组学(genomics)蛋白质组学(proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构和功能的生物信息。

研究方向主要包括:序列比对、蛋白质比对、基因识别分析、分析进化、序列重叠群装配、遗传密码、药物设计、生物系统等。

生物统计学方法设计生物信息学分析的许多方面,包括:基本数理统计方法、多元统计分析方法、随机过程理论、隐马尔科夫链模型、统计学习理论、Kolmogorov复杂性理论、支持向量机(SVM)等方法。

生物信息学面对的常是海量数据,而对应的目标函数却难以给出明确的定义和求解,这些可以描述成问题规模的巨大(或高维灾难)与问题求解病态性之间的矛盾。

 

序列对比方法


序列对比(sequence alignment)是生物信息学的核心研究内容之一,也是进行各种序列分析任务的基本方法。

生物学研究过程中,为了确定新测序列的生物属性,需要进行序列同源性分析,就是将新序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列间的同源性大小,这是理论分析方法中最关键的一步,通常使用序列对比的方法。

 

双序列对比的统计显著性


一致性百分比:判断两条序列从进化观点上是显著相关的,经验规则就是如果两条序列在150个氨基酸或者更长的范围内有25%或以上的氨基酸一致,那么可能是显著相关。

序列对比的统计显著性检验:比对算法提供了双序列比对的分值,我们需要进行统计检验来决定匹配的真阳性(比对蛋白质真正同源)还是假阳性(算法原因导致比对在一起)。

比对算法主要目的:最大化序列的敏感性和特异性。敏感性就是真阳性与总阳性之比,这是衡量一个算法能够正确确定相关序列的一个尺度。特异性就是真阴性与总阴性之比,描述了正确确定非同源序列的一个尺度。

 

决定序列对比是否具有统计显著性是基于考虑此序列与其他许多序列对比的结果。

 

全局比对的统计显著性


首先比对得到原始分值,然后打乱序列N次,然后进行N次对比,记录下来随机分值,然后用真实分值与随机分值进行比较,如得到随机分值小于真实分值,则拒绝无相关性假设。

 

局部对比的统计显著性


许多著名数据库搜索程序依赖于局部比对。局部比对在一起的区域称作“高分片段对”(high-scoring segment pairs,HSP)。局部比对已经发展出了更加严格的统计方法。

 

基因表达谱的数据获取


基因芯片(gene chip)是通过反应体系中不同来源的DNA与芯片探针的竞争性杂交获得检测信号,得到的检测数据是两个信道荧光强度的比值。一张芯片经过标准化后,该芯片上每一个基因都可以获得一个表达比(ratio)。

基因表达谱(gene expression profile)数据的分析是生物信息学的热点和难点。转化为数学问题,分析任务是从表达矩阵中找到具有统计学意义的结构,结构类型包括全局模型和局部模型。

 

基因表达谱的数据获取及标准化(normalization):经过竞争性杂交实验,每个芯片得到两种荧光染料的两个波长的扫描图像,仪器自动转化为数字。不同的标记物、对不同荧光标记的不同检测效能以及样片RNA原始浓度的不同所产生的系统误差,都在标准化中得到校正。

标准化法主要有:点标准化法、总强度标准化法、局部加权线性回归标准化法和局部均值标准化法



Copyright © 全国电台音乐交流群@2017