欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于支持向量机的蛋白质功能预测新方法研究
来源:一起赢论文网     日期:2013-06-02     浏览数:4167     【 字体:

                                 摘要

随着人类进入后基因组时代,基因功能的注释已成为科学研究的焦点问题。依据中心法则,记录遗传信息的基因必须翻译成蛋白质才能执行其功能,因而蛋白质功能的研究变得至关重要。虽然可以通过实验方法确定蛋白质的功能,但是实验方法费时、费力且费用昂贵,无法满足在全基因组范围内对蛋白质功能进行注释的需要。因此,发展可靠、经济和高通量的蛋白质功能预测方法成为一项迫切任务。本文根据蛋白质功能预测的研究现状,基于机器学习方法支持向量机,从氨基酸序列出发,设计了一系列蛋白质序列的特征表达新编码方法,对蛋白质的功能进行预测研究,主要工作概括如下:

1.建立了线粒体和叶绿体亚结构预测的新方法。从氨基酸的极性和疏水性出发,基于离散小波变换特征提取方法,提出了一种新的伪氨基酸成分特征编码方法,成功应用于线粒体和叶绿体蛋白质的区分。在此基础上进一步预测了线粒体和叶绿体亚结构,各类亚结构的预测准确率比现有方法提高了 3.7%?22.1%,尤其是线粒体外膜和叶绿体内囊体腔的预测结果有极大改进。这些结果表明离散小波变换+仅可以消除氨基酸序列中的噪声成分干扰,而且可以有效地提取整条蛋白序列的次序信息。此外,对线粒体和叶绿体两种蛋白质物理化学性质进行了讨论,发现线粒体蛋白质中极性特征更明显,而叶绿体蛋白质中疏水特征更显著。

2.构建了蛋白质精氨酸和赖氨酸甲基化修饰位点预测模型PMeS。提出了一种新的位置权重氨基酸成分去反映修饰位点附近残基的位置信息,并将其与氨基酸属性编码和溶剂可及表面面积融合去捕获甲基化位点的特征信息。10-倍交叉验证结果显示,PMeS的特征编码方法对甲基化状态的识别十分有效。同时,对特征的选择、窗口长度、正负样本比例和模型的稳定性进行了深入探讨。不同交叉验证和独立测试的结果表明,PMeS模型稳定可靠且明显优于其它预测工具。基于PMeS模型,我们构建了精氨酸和赖氨酸甲基化修饰位点的在线预测服务网立古(http://bioinfo.ncu.edu.cn/inquiries_PMeS.aspx)

3.建立了同时预测完整蛋白上赖氨酸残基的甲基化和乙酰化修饰位点的新方法PLMLA。该方法通过属性分组重量编码、位置权重氨基酸成分和二级结构分别提取修饰位点附近的物理化学属性、序列信息和结构特征。对甲基赖氨酸、乙酰赖氨酸和非甲基化与非乙酰化赖氨酸在残基的位置特异属性、物理化学性质和二级结构方面的特征差异进行了详细分析。基于不同训练特征的预测结果揭示,具有多特征融合的预测模型能充分利用不同特征之间的互补信息去改进模型的预测性能。基于独立测试与其它方法进行了比较,PLMLA对甲基赖氨酸的预测准确率比BPB-PPMSMASA的分别高30.3%37.88%;对乙酰赖氨酸的预测准确率比LysAcetN-Ace的相应结果分别高33.33%36.11%。这充分表明PLMLA方法极大地改进了甲基赖氨酸和乙酰赖氨酸的预测研究现状,是识别赖氨酸残基甲基化和乙酰化修饰的有效工具。最后,我们构建了基于氨基酸序列即可对完整蛋白质序列上赖氨酸的甲基化和乙酰化修饰位点同时进行预测分析的在线服务平台(http://bioinfo.ncu.edu.cn/ inquiriesPLMLA.aspx)

4.开发了酪氨酸硝基化位点预测的新方法。采用氨基酸残基信息熵和二肽关联熵优化窗口,结合氨基酸的物理化学性质和结构特征构建了蛋白质酪氨酸硝基化位点的预测模型。对信息熵优化窗口和传统连续窗口进行了初步探讨,结果显示信息熵窗口能够有效捕获酪氨酸硝基化肽段上的重要位点,克服短肽序列易丢失信息而单纯增大肽段长度又会引入冗余信息的矛盾,并有效提高模型的预测性能。特征分析揭示酪氨酸残基的局部静电环境、邻近的进化保守位点和长程位点对其硝基化均产生重要影响。本文的分析结果有助于帮助理解酪氨酸的硝基化机制,并对进一步的实验研究提供重要的参考价值。

关键词:支持向量机;离散小波变换;线粒体;叶绿体;蛋白质翻译后修饰;氨基酸属性编码;位置权重氨基酸成分;溶剂可及表面面积;属性分组重量编码;二级结构;信息熵;无序性

目录

第1章绪论 1

1.1 引言 1

1.2蛋白质的功能 2

1.3基于机器学习的蛋白质功能预测 4

1.3.1蛋白质序列的特征表达 4

1.3.2功能预测中常用的机器学习算法 8

1.4本文主要研究内容 11

参考文献 13

第2章线粒体和叶绿体亚结构的预测分析 21

2.1引言 21

2.2实验材料与方法 22

2.2.1数据集 22

2.2.2蛋白表达 23

2.2.3预测算法 24

2.2.4评价体系 24

2.3实验结果与讨论 25

2.3.1小波函数的选择 25

2.3.2分解尺度的选择 26

2.3.3物理化学属性的比较 27

2.3.4预测结果 28

2.3.5与其它预测方法的比较 28

2.3.6独立测试结果 29

2.4 结论 30

参考文献 31

第3章蛋白质甲基化修饰位点的预测分析 37

3.1引言 37

3.2实验材料与方法 38

3.2.1数据集 38

3.2.2扩张的特征编码策略 39

3.2.3预测算法 41

3.2.4评价体系 41

3.3实验结果与讨论 42

3.3.1不同特征的影响 42

3.3.2U长度的影响 46

3.3.3正负样木比例的影响 47

3.3.4预测模型PMeS的稳定性 48

3.3.5独立测试预测结果 49

3.3.6与其它方法的比较 49

3.4 结论 50

参考文献 50

第4章赖氨酸甲基化和乙酰化的同时预测分析 54

4.1引言 54

4.2实验材料与方法 55

4.2.1数据集 55

4.2.2特征提取 57

4.2.3预测算法与评价体系 59

4.3实验结果与讨论 59

4.3.1不同特征的影响 59

4.3.2预测结果 63

4.3.3独立测试及与其它方法比较 64

4.3.4预测网站 65

4.4 结论 66

参考文献 66

第5章酪氨酸硝基化的预测分析 70

5.1引言 70

5.2实验材料与方法 71

5.2.1数据集 71

5.2.2信息熵 71

5.2.3特征提取 72

5.2.4预测算法与评价体系 72

5.3实验结果与讨论 73

5.3.1信息熵选择重要位置 73

5.3.2电荷性分析 74

5.3.3 二级结构分析 75

5.3.4无序性分析 76

5.3.5不同窗口的影响 77

5.3.6基于信息熵窗口考察特征 79

5.4结论 79

参考文献 80

第6章结论与展望 83

6.1主要结论 83

6.2后续工作的展望 85

 

                                  第1章绪论

1.1引言

随着基因组计划的顺利完成,人类进入了后基因组时代,基因功能的注释己成为科学家关注的焦点。依据中心法则,记录遗传信息的基因必须翻译成蛋白质才能执行其功能,因而蛋白质的研究至关重要。蛋白质是生物体中含量最高、功能最重要的生物大分子,它存在于所有生物细胞中,约占细胞干质量的50%以上⑴。作为生命活动的重要物质基础,蛋白质执行着生物体内各种重要的功能,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。因此蛋白质的功能研究将有助于揭示生命的奥秘,进而为人类从分子水平探讨相关重大疾病的发病机制、诊断以及新药的开发提供理论根据[2]

研究蛋白质功能的实验方法主要有凝胶电泳法、酵母双杂交法、串联亲和纯化技术、焚光共振能量转移技术、蛋白质芯片技术和免疫电镜技术等虽然这些方法能够对未知蛋白质的功能进行精确确定,但实验设计复杂、代价高昂和周期长,使其只能适用于小规模实验,不能满足在全基因组范围内对蛋白质功能进行注释的需要。另外,蛋白质序列数据库的数据积累速度非常迅速,使得已知功能的蛋白质数量和己知序列的蛋白质数量的差距越来越大。因此,开发可靠、经济和高通量的蛋白质功能预测方法成为一项迫切任务,并已成为后基因组时代研究的热点难点问题。

发展理论计算方法预测蛋白质的功能不仅现实必要,而且具有雄厚的理论基础。1961,Anfmsen[6]提出蛋白质的氨基酸序列完全决定其高级结构,而蛋白质的高级结构又完全决定其生物功能的著名论断。这一论断巳被蛋白质研究领域广泛认可和共识,成为从氨基酸序列信息出发,进行蛋白质结构和功能预测研究的理论基础。

到目前为止,蛋白质功能预测主要有两大类方法。一类是同源性方法[7,8],通过考察蛋白序列的相似性或结构的相似性来进行功能预测。这类方法简单易实现,但有些序列相似的蛋白质在功能上却并不相关,同时也存在功能相关的蛋白质在序列和结构上却没有相似性[9]。另一类是非同源性方法,即通过蛋白质1序列的属性归类来进行功能预测。这类方法体现了进化的观点,它主要包括基因组序列方法系统发育方法和机器学习方法[14_19]。其中基于机器学习的蛋白质功能预测方法取得了较好的预测效果。由于生物技术的迅猛发展,人类获得了大量高通量生物数据,如蛋白质相互作用网络、基因表达数据等。这些数据规模庞大,关系错综复杂,而机器学习的设计正好能够适应高度复杂的生物系统,它经过学习能够从杂乱无章的数据中寻找存在的规律和发现数据之间的必然联系[1]

针对当前蛋白质功能预测的研究现状,本文基于机器学习方法支持向量机,对蛋白质功能预测中的两个重要问题:蛋白质亚细胞定位和蛋白质翻译后修饰位点预测进行了深入研究,以改进它们的现有预测质量,为蛋白组学的相关研究提供方便、快捷和经济的研究手段。

1.2蛋白质的功能

蛋白质由20种不同的氨基酸残基线性序列构成,折叠成特定的空间构象后,蛋白质就具有相应的生物学活性和功能。蛋白质功能的生物学界定有不同水平上的描述从生理学的角度蛋白质功能包括[21,22]:酶催化、物质运载和储存、营养存储、运动协调、机械支持、免疫保护、信号接受与传导、生长和分化的控制作用。从生物化学的角度蛋白质功能主要包括结合功能,特异性地识别其它分子;催化功能,基本上活细胞中的每一个化学反应都是被催化的,大多数催化剂是酶蛋白;开关功能,蛋白质是柔性分子,可以作为控制细胞过程的分子开关;结构蛋白,作为活体中一些主要结构的元件。从理论预测研究的角度蛋白质功能包含[24]:亚细胞定位、翻译后修饰位点、信号肽剪切位点及其重新设计、信号锚、蛋白质的不同结合位点和激活位点、蛋白质的类别(是否是膜蛋白、酶)、蛋白质相互作用网络等。以下着重介绍本文预测研究涉及的蛋白质亚细胞定位和翻译后修饰功能。

一个生物体细胞内大约含有10亿个蛋白质分子,分别位于不同的细胞区域或细胞器内,通常称这些细胞区域或细胞器为亚细胞[25]Chou[25]将真核生物的蛋白质亚细胞位置分为细胞核(nucleus)、细胞膜(plasma membrane)、细胞骨架(cytoskeleton)、细胞质(cytoplasm)、内质网(endoplasmic reticulum)、细胞夕卜(extracell)、线粒体(mitochondria)和叶绿体(chloroplast)等 22 类的功能是通过其内的蛋白质来执行的。蛋0质首先在核糖体中合成,然后在蛋白分选信号的引导下,一部分蛋白被转运到特定的细胞器里,还有部分蛋白则会留在细胞质或被分泌到细胞外。蛋白质只有转运到正确的细胞区域才能发挥其生物学功能,细胞内的区室化分布能够影响到蛋白质的折叠、聚合、代谢、信号传导和转录调控等生物过程[261。一旦蛋白质的定位出现偏差,将会引起细胞功能障碍,甚至引发癌症和老年痴呆症[27]等许多严重疾病,对生命产生重大影响。可见,蛋白质亚细胞定位的信息能够对蛋白质的功能注释提供必要帮助,同时对蛋白质的结构、功能和进化与疾病发生的内在机制研究提供有用信息。

蛋白质的翻译后修饰是指蛋白质进行共价加工的过程,它通过在一个或数个氣基酸残基上增加修饰基团或通过蛋白水解剪切来改变蛋白质的活性_。蛋白质的翻译后修饰是一个错综复杂的变化过程,目前已发现的修饰类型超过400[29] (http://abrf.org/index.cfm/dm.home),其中最常见的有憐酸化、糖基化、乙酰化、甲基化、泛素化、硝基化、硫酸化和棕榈化等。几乎所有的蛋白质都要经过一系列的翻译后修饰,才能成为具有生物功能的成熟蛋白_。也正是这种翻译后修饰功能,使得蛋白质的结构更加复杂,功能更加完善,调节更加精细,作用更加专一,从而赋予人类生命过程更多的复杂性。正常的蛋白质翻译后修饰将调节蛋0质行使正常的生物功能,而蛋白质翻译后修饰的异常则会使蛋白质的构象发生改变、功能紊乱或失去生物活性,直接参与疾病的发生与发展过程。由于蛋白质的翻译后修饰总是发生在特定的氨基酸残基或多肽的特殊位置上,所以同类翻译后修饰位点(如磷酸化丝氨酸位点)周围的肽段具有很强的保守性,这就使得基于局部序列信息预测蛋白质的翻译后修饰成为可能?

1.3基于机器学习的蛋白质功能预测

机器学习是模拟人类的学习过程,以计算机为工具从给定的训练数据中获取知识,提取数据处理规则,自动形成处理程序,以提高系统解决问题的能力和准确性[22]。机器学习能够轻易地适应新环境、能够通过学习自动调整其自身的内在结构来得出结果的优势很适应于高度复杂的生物系统的研究[1]。因此,近几年机器学习方法在蛋白质功能预测方面得到了广泛应用。基于机器学习方法,从氨基酸序列出发预测蛋自质功能,关键在于蛋白质序列的特征表达和分类算法的设计,下面我们就从这两方面简要概述蛋白质功能预测的发展现状。1.3.1蛋白质序列的特征表达

1.3.1.1基于氣基酸成分的特征表达

1994NakashimaNishikawa[32]首先提出蛋白序列的氨基酸成分(aminoacid composition, AAC)特征表达,并将其用于细胞内和细胞外蛋白质的预测。随后^(基酸成分便被广泛应用于蛋白质的结构和功能预测领域,如蛋白酶家族的分类研究[33,34]、蛋白质亚细胞定位预测[35_39]等。尽管氨基酸成分是蛋白序列表达中最基本和不可或缺的方法,但它仅仅是统计了 20种残基出现在序列中的频率,所以氨基酸成分无法反映残基的位置和次序信息。为了弥补这种缺陷,Huang和。_提出了氨基酸二肽成分(dipeptidecomposition)用于蛋白质亚细胞定位的预测研究。Shen[4i]采用三肽成分(tripeptide composition)预测研究蛋白质与蛋白质的相互作用。Yu[42]基于《肽成分(^peptide composition)去预测亚细胞定位。肽成分是通过计算连续n个氨基酸残基在样本中出现的频率来表达蛋白序列信息。Guo[43]提出了 k阶残基稱联模型(residue-couple model)去研究亚细胞定位预测。A:阶残基親联模型是通过考虑相隔<^-1个氨基酸对之间的作用去刻画蛋白序列信息,其定义如下:其中ij分别代表20种不同的氨基酸;当序列中的位置n上是氨基酸i且位置?+A:是氨基酸/,H+ 否则为0。虽然上述这些方法对氨基酸成分进行了改进,能够利用部分氨基酸的次序信息,但是它们没有考虑蛋白质序列上氨基酸残基的物理化学属性,仍然具有局限性。

1.3.1.2基于物理化学属性旳特征表达蛋白序列的基本单位是氨基酸,不同氨基酸残基的侧链在大小、形状、亲疏水性、电荷性以及形成氧键的能力等方面都有差异,导致它们形成不同的三维结构,适应不同的生理环境。正是由于氨基酸的物理化学属性对蛋白的结构和功能有重要影响,使得基于氨基酸物化性的特征表达成为刻画蛋白序列的另一类重要方法。这类方法主要包括自相关函数法、Chous伪氨基酸成分、氨基酸物化性分组编码等。自相关函数法(auto-correlate function, ACF)Bu[44]1999年提出的,它首先采用Kawashima等建立的AAindex数据库中氣基酸的物化性数值将蛋白质序列P数值化:Ph = (1.2)其中/2丨表示蛋白序列P中第i个残基对应的氣基酸指数值(/ = 1,2,L代表蛋白序列的长度。然后定义数值序列P/^的相关性:1 Ln=   X ,n = 1,2,3,,w (1.3)L-n ,=1m (<Z)是一个整数,;77=1则厂?表示两个连续残基间的相关性,其它依此类推。最后蛋白质序列P通过一个维的向量V = 来表达。01011[46]2001年在蛋白质亚细胞定位的预测研究中提出了伪氨基酸成分Cpseudo amino acid composition, PseAAC)的概念。该方法是在氨基酸成分的基础上,通过引入氨基酸的物理化学属性计算得到;I个序列相关因子,因此一条蛋白序列可用一个20+义维的向量X = [Pi,-..,/720,^20+1,表示,其中前20维表示基酸成分。Chous伪氨基酸成分考虑了序列中残基的次序效应和氨基酸的物化性,提高了模型的预测性能,所以自提出以来,得到了广大研究者的关注,并相继发展了各种形式的广义伪氨基酸成分。目前该方法已成功用于膜蛋白识别[47_5°],亚细胞定位[51_57],G-蛋白偶联受体识别[58_59]、酶家族及其亚家族分类等蛋白质功能的预测。氨基酸物化性分组编码(encoding based on physicochemical properties'group)是根据氨基酸的物理化学性质先将20种氨基酸分成几组如疏水残基组、极性残基组和芳香残基组等,然后采用不同方法编码。2002,FengZhang[64]基于氨基酸的亲疏水性和电荷性引入Zp曲线和Zp参数预测蛋白亚细胞定位。2005Maetschke_提出了 BLOMAP编码方法去改进信号肽剪切位点的预测。20062110118[66]等建立了分组重量编码方法用于调亡蛋白的亚细胞定位研究。随后,NanniLumini[67]&进分组重量编码方法去预测DNA结合蛋白。

1.3.1.3基于结构进化信息的特征表达由于蛋白质序列在进化过程中,有些残基位置比较保守,而有些残基位置易发生突变或氨基酸替换,导致蛋白质的功能发生变化,鉴于此进化信息被引入到蛋白质功能的预测研究中。这类信息通常是利用多序列同源比对工具PSI-BLAST[68j产生的位置特异打分矩阵 PSSM (position specific score matrix)或位置特异频率矩阵PSFM (position specific frequency matrix)来体现,它不仅考虑了序列中残基的位置信息,而且考虑了序列中残基相互替换的生物学意义。进化信息对蛋白质亚细胞定位[69_71]、蛋白质与蛋白质的相互作用[7273]和蛋白质翻译后修饰位点[74_76]的预测有明显改进。另外,研究表明残基的结构特征如无序性、溶剂可及表面面积等对蛋白质与蛋白质的相互作用位点和翻译后修饰位点[75,76]有重要影响,因此在蛋白功能预测中也会考虑这些结构信息。但是由于己知结构的蛋白质数量很少,这类特征的实验数值很难获得,通常是利用相关网站的预测结果进行分析。

1.3.1.4基于信号序列的特征表达信号序列特征(signal sequence)是随着数字信号处理技术的发展而出现的。它主要是基于信号处理技术如傅里叶变换、小波变换等来抽取蛋白质的序列信息。该类方法一般先采用氨基酸的物化性将蛋白质序列转化为数字序列,再通过信号处理技术提取数字序列的频域或时域信号特征进行分析。这些技术具有坚实的数学理论基础,能够有效地反映序列的次序信息和长程相关性,从而提高模型的预测性能[78]。近十年来,傅里叶变换和小波变换在生物信息学领域得到了广泛应用[53,79_83]。尤其是小波变换在蛋白质亚细胞定位、疾病分类和G-蛋白偶联受体预测的研究中取得了较好的预测效果。小波变换是一种建立在调和分析、泛函分析和傅里叶分析基础上的变换分析方法,是调和分析这一数学领域半个世纪以来的工作结晶[84]。小波变换优于傅里叶变换之处在于,它的时间窗和频率窗都可改变,且在时域和频域同时具有良好的局部化性质。即在高频部分具有较低的频率分辨率和较高的时间分辨率,在低频部分具有较低的时间分辨率和较高的频率分辨率[84]。小波变换的思想来源于伸缩和平移方法,它将信号分解成一系列小波函数的叠加,而这些小波函数都是由一个母函数经过平移与尺度伸缩得来的。一维连续小波函数的定义为:设平是平方可积的实数空间,其傅里叶变换为中(),若中(d满足允许条件:C I 中 0)|2= (1.4)则称少⑴为一个基本小波或小波母函数(mother wavelet) _。母函数平(f)经过伸缩和平移得到一系列小波函数:( ),<3,6 e R,a ^ 0 (1.5)其中a6分别为伸缩因子和平移因子。在实际运用尤其是在计算机上实现时,连续小波平必须针对连续尺度参数a和连续平移参数加以离散化。限制a只取正值,则此时相容性条件变为:= G.6)把连续小波变换中尺度参数a和平移参数b的离散化公式分别取作al,b = kc^b^, J e Z,a^ 则对应的离散小波函数为:00 = - kbo (1.7)若取a=2,%=1,则可得到二进小波(dyadic wavelet):= j,k^Z (1.8)二进小波对信号的分析具有变焦距的作用。假定有一放大倍数是2.",它对应为观测到信号的某部分内容。若想进一步观看信号更小的细节,就需要增加放大倍数也即减小J;反之,若想了解信号更粗的内容,则可以减小放大倍数,即加大J?,因此小波变换被誉为分析信号的“数学显微镜” _。如果用/(>)表示氨基酸序列信号,则其二进小波系数定义为:T\a,b) = (/(0,^,.,(0) = 2-"2 lf(fy(2-^t-k)dt (1.9)可通过Mallat算法[86]求解。Mallat算法是基于多分辨理论分析提出的一种计算离散小波变换的快速算法。其核心思想是对于任意信号y(t)eL2(R),将它分解为高频部分(细节部分)和低频部分(近似部分),然后对低频部分进一步进行二进小波分解,如此反复就可以得到任意尺度上的低频部分和各尺度上的高频部分。在实际应用时,多分辨分析通过转成低通和高通的滤波器组来实现,分解尺度为_/,低频系数(尺度系数)和高频系数(小波系数)的推导公式如下:岭如 (1.10)其巾m,got)分别为低通和高通滤波器组的系数。通过滤波器组系数和尺度系数就可得到下一尺度下的小波系数和尺度系数,重复这一分解过程,就可将原信号/(/)分解为时频局部化了的一系列基元信号,最终达到分析原信号/(X)的目的。

除了上述这几种主要的蛋白质序列特征表达方法,还有功能域信息(functional domains) [87-89]和基因本体论(gene ontology) 等非序列的特征,这类特征的有效性完全依赖于功能域和基因本体论注释等相关数据库的完善程度。由于不同特征从不同的角度刻画蛋白质序列,单独利用某种特征难以在预测效果上取得大的突破,所以为了使得特征信息的输入更加完备,提高模型的预测性能,融合多种特征来表达蛋白序列已成为蛋白质功能预测中特征提取的发展趋势。

[返回]
上一篇:基于支持向量机的空间数据挖掘方法及其在旅游地理经济分析中的应用
下一篇:基于支持向量机_可拓学的三峡库区丰都县水库塌岸预测研究