首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
蛋白质磷酸化翻译后修饰在病毒的复制和抑制宿主细胞功能方面发挥重要的作用。然而,利用实验的方法识别磷酸化位点既费时费力又耗财。因此基于蛋白质氨基酸序列发展一种机器学习方法对病毒蛋白磷酸化位点进行预测显得非常有必要。研究结合支持向量机提出识别病毒蛋白磷酸化位点的新方法。采用权重氨基酸成分和属性分组编码对病毒蛋白残基的氨基酸物理化学性质和序列信息进行特征提取,通过10倍交叉验证,丝氨酸、苏氨酸和酪氨酸磷酸化位点的预测准确率分别达到82.0%、85.8%和92.4%。运用该预测模型对丝氨酸残基磷酸化的激酶组进行分类评估,CMGC、AGC和CAMK激酶组的马氏相关系数分别达到69.3%、68.8%和68.2%。结果表明:构建的方法可以有效地预测激酶特异性的磷酸化位点。  相似文献   

2.
本文基于决策树分类算法构建人类病毒蛋白质磷酸化修饰位点的预测模型。采用氨基酸物理化学性质对蛋白质序列进行特征提取,并分析丝氨酸、苏氨酸和酪氨酸磷酸化位点邻近序列的氨基酸性质。同时考察了不同分类算法对预测结果的影响。通过10倍交叉验证,利用决策树算法预测丝氨酸、苏氨酸和酪氨酸磷酸化位点的MCC分别达到77.31%、75.91%和71.94%,表明本文提出的方法能有效地预测人类病毒的磷酸化修饰位点。  相似文献   

3.
蛋白质-DNA相互作用位点在各类生理生化反应中扮演重要角色.本论文旨在构建一种可以准确预测“相互作用位点”的方法:PdDNA,其内容主要包括支持向量机和序列匹配器.支持向量机通过提取相互作用位点中心残基的特征进行训练并分类,序列匹配器则通过蛋白质特征矩阵(PSSM)对氨基酸序列进行相关性评估,对二者结果进行归一化整合,得到最终的预测结果.利用公开数据集PDNA_62,我们的PdDNA预测准确率为86.87%.为进一步验证PdDNA可靠性,我们还自建了PDNA_224数据集,其预测准确率为83.07%,处于较高水平.因此PdDNA是一种有效的“蛋白质-DNA相互作用位点”预测方法.  相似文献   

4.
蛋白质相互作用位点的预测对于突变设计和蛋白质相互作用网络的重构都是至关重要的.由于实验确定的蛋白质复合物和蛋白质配体复合物的结构依然相当少,预测蛋白质相互作用位点的计算方法就显得十分重要.该文提出了一种以支持向量机为分类器,以邻近残基的序列剖面和可及表面积为输入数据来预测蛋白质相互作用位点的方法.计算结果显示,界面残基和非界面残基被识别的准确率为75.12%,假阳性率为28.04%.与输入数据仅有序列剖面的方法相比,界面残基和非界面残基被识别的准确率提高了4.34%,假阳性率降低了4.63%.  相似文献   

5.
赖氨酸乙酰化(Lysine acetylation,Kace)普遍存在于人体代谢酶中,与多种代谢疾病密切相关,因此准确识别该位点对于代谢疾病治疗的研究具有重要意义.现有的Kace位点预测方法大多采用蛋白质序列层面的信息作为输入,蛋白质结构特性考虑不全面;特征提取时未关注氨基酸残基间顺序相关性,信息丢失严重,降低了预测准确度.提出一种新的Kace位点预测深度学习CL-Kace模型. CL-Kace引入蛋白质结构特性,并与蛋白质原始序列、氨基酸理化属性共同构建位点特征空间,采用卷积神经网络(Convolutional Neural Network,CNN)提取特征;引入双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络捕获残基间的顺序依赖关系,以提高网络的抽象能力,识别潜在的Kace位点.实验结果表明,CL-Kace模型优于现有的Kace位点预测器,能够有效地预测潜在的位点.  相似文献   

6.
计算预测蛋白质磷酸化位点的方法常用于位点识别的初筛阶段。为了提升位点初筛的准确率,本文提出一个深度学习模型MAPhos。该模型首先运用氨基酸向量与位置向量的和表示每一个氨基酸残基;随后使用双向GRU循环神经网络捕获各氨基酸残基的特征;接着引入多头注意力机制计算各注意力头的子上下文向量,并将它们连接起来构成肽段的上下文向量;最后通过一个全连接神经网络进行非线性变换和结果预测。真实数据集上的实验结果表明,MAPhos模型预测磷酸化位点在AUC值、灵敏度、正确率、精度和F1分数统计度量上胜过基于特征提取的模型和基于卷积神经网络的模型,同时与基于卷积神经网络的模型相比具有更好的可解释性,这证明了MAPhos模型更加适用于磷酸化位点识别任务的初筛阶段。  相似文献   

7.
构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台.  相似文献   

8.
针对蛋白质相互作用界面中的热点残基是局部紧凑地聚集着,而现有的基于机器学习的热点残基预测方法仅从目标残基中提取特征,并没有考虑目标残基的局部空间结构信息,以及如何进行特征提取并获得非冗余的特征子集等问题,为准确识别蛋白质相互作用界面的热点残基,提出结合蛋白质相互作用界面残基的空间邻近残基信息提取多类特征,并利用随机森林来进行特征提取,最后利用支持向量机来预测热点残基的方法.计算实验表明,该预测方法可以有效地用来发现热点残基.  相似文献   

9.
蛋白质亚细胞定位预测研究进展   总被引:1,自引:0,他引:1  
蛋白质的功能与其在细胞中的定位有着密切的联系,新合成的蛋白质必须处于适当的亚细胞位置才能正确的行使其功能.预测蛋白质的亚细胞定位,在确定一个未知蛋白质的功能,了解蛋白质相互作用等方面有着重要的意义.机器学习方法在蛋白质亚细胞定位研究中扮演着一个重要的角色.笔者从数据集的构建、蛋白质序列特征提取方法、蛋白质亚细胞定位预测算法以及预测算法的性能评估等四方面总结了过去十几年间机器学习方法在蛋白质亚细胞定位研究中的应用情况,系统阐述了蛋白质亚细胞定位预测研究的进展.  相似文献   

10.
目的 分析甘蓝型油菜的过氧化物酶(Peroxiredoxin, PRDX)家族成员的生物学信息,以期为油菜及相近植物中PRDX的酶学特征及植物抗氧化的分子机制研究提供依据.方法 利用生物信息学方法,分析NCBI(National Center for biotechnology information)数据库中注册的7种油菜PRDX蛋白质的理化性质、信号肽、磷酸化位点、糖基化位点、蛋白质二级结构、三级结构及系统进化特点.结果 甘蓝型油菜PRDX蛋白质比较稳定;氨基酸序列中无信号肽,且不是分泌蛋白;该家族蛋白质中存在较多潜在糖基化位点和磷酸化位点;蛋白质二级结构、三级结构预测结果显示其结构具有极大相似性,且主要以α-螺旋和无规则卷曲为主;系统进化树将该家族成员分为了两个亚家族.结论 本研究为进一步探索植物PRDX家族的生物学功能提供了参考依据.  相似文献   

11.
识别蛋白质相互作用位点在蛋白质功能研究中发挥着重要作用.文章从蛋白质序列出发,提取相关特征——序列谱、序列谱+信息熵,分别形成多个滑动窗口,以此构造输入特征向量.采用"留一法"生成训练数据集和测试数据集,使用支持向量机构建6种分类器,预测测试集中的表面残基是否是蛋白质相互作用位点,得到了较好的结果,说明了实验方法的有效性和可行性.  相似文献   

12.
亚细胞位点是蛋白质很重要的功能特征.找到一种有效的、可信度高的预测蛋白质位点的方法是很必要的.提出了一种基于马尔科夫模型的改进预测方法.首先,对于一条给定的蛋白质序列,通过计算在马尔科夫模型下20个氨基酸残基的状态转移矩阵,建立一个420维的特征向量,然后利用支持向量机进行训练和预测,最后夹克刀检验证实了该方法的预测精度与以前的马尔科夫模型相比得到了一定的提高.  相似文献   

13.
由蛋白质序列预测蛋白质功能位点对于理解蛋白质功能具有重大的意义,它同时也为生物学实验提供了重要依据.长期以来,基于知识库的方法一直是预测蛋白质功能位点的可靠方法.通过适当修改蛋白质结构分类库SCOP构建了一个附带功能注释的结构域模版库(fDPD),其中每个模版都包含一组序列和结构都非常相近的已知的蛋白质成员.fDPD通过隐马尔可夫模型方法HMMER由未知蛋白质的序列预测其功能位点.为了考察本方法的效果我们检测了两个通用的酶催化位点数据库,一个由约1 500个序列构成的钙离子结合蛋白数据库和从CASP9中提取出的数条蛋白质序列.我们的方法对于配体结合位点以及钙结合位点的预测取得了较高的精度和覆盖率,其催化位点的预测效果仅次于目前已知的最好的方法.我们的计算结果表明,结构上相似的蛋白质其功能位点倾向于出现在蛋白质表面上相似的位置.  相似文献   

14.
为了提高蛋白质与金属离子的交互位点(PMIIS)预测的准确率,从解决数据分布不平衡问题出发,提出了1种结合下采样与上采样方法的类不平衡学习算法。同时对多数类样本与少数类样本进行采样,在补充少数类样本信息的同时,减少多数类样本的冗余信息。基于该文类不平衡学习算法与支持向量机(SVM),设计了1种基于序列信息的预测方法。为了客观评价PMIIS的预测性能,构建了领域内较为完备的、含有蛋白质与Zn~(2+)、Ca~(2+)与Fe~(3+)交互位点的标准数据集。在此数据集上的实验结果表明,该文预测方法在蛋白质与Zn~(2+)、Ca~(2+)与Fe~(3+)交互位点预测问题上的平均马氏相关系数(MCC)为0.646,优于TargetS与IonCom。  相似文献   

15.
针对从蛋白质原始序列中预测蛋白质定位及功能信息这个生物信息学中研究的热点问题,提出进化模糊K近邻算法(Evolutionary Fuzzy K-Nearest Neighbor,EFKNN)直接处理多分类问题的预测模型,用EFKNN及其集成直接从蛋白质序列中预测蛋白质亚核定位。采用5种特征提取算法从蛋白质序列中提取特征,训练了5个基于EFKNN的基分类器,并根据得票量大小原则集成每个基分类器的分类结果作为待测样本的输出。将蛋白质亚核定位预测中常用的数据集SNL9作为训练集,利用jackknife测试方法预测了数据集中每条单定位亚核蛋白,正确率为70.0%,表明该模型可以作为蛋白质亚核定位预测的工具或对现有预测模型和方法的补充。  相似文献   

16.
在Du和Li构建的首个亚线粒体定位数据库基础上,将线粒体蛋白依据亚线粒体位置细分为四大类进行预测.对基于氨基酸的亲疏水特征、物理化学特征和结构特征的蛋白质序列约化信息做出讨论.给出在单肽组分和六类亲疏水约化情形下的蛋白质序列最佳分割位点,结果不仅符合真实生物学现象而且范围更加精确,可为相关实验研究提供参考.提出了最佳组合参数,该参数是ω=0.10,λ=22时亲疏水残基指数值及平行相关形式的伪氨基酸组分结合全序列单肽组分,利用支持向量机算法进行预测,达到了较好的预测结果.利用本文提出的最佳组合参数对未知蛋白序列进行检验,结果显示有一定注释作用,特别是对于Inner membrane类和Matrix类的预测精度较高.  相似文献   

17.
蛋白质磷酸化修饰研究进展   总被引:1,自引:0,他引:1  
 蛋白质磷酸化是由蛋白质激酶催化的磷酸基转移反应,是最常见、最重要的蛋白质翻译后修饰方式之一,是一种普遍的生命活动调节方式,在细胞信号转导过程中起重要作用。本文介绍了蛋白质磷酸化修饰的主要类型与功能、磷酸化蛋白的鉴定及磷酸化位点的预测等方面研究进展,并着重介绍了一些灵敏度高、特异性强的以同位素标记、免疫印迹-化学发光法等作为核心的磷酸化蛋白质分析方案。Western blot方法被证明是鉴别磷蛋白的灵敏、特异方法,而NanoPro100/1000超微量蛋白分析系统等又在此基础上加以改善。蛋白磷酸化分析工具和软件的发展也很迅猛。  相似文献   

18.
为揭示2003年在王朗采集的鼢鼠标本王03001号是否为秦岭鼢鼠四川兽类新纪录,以鼢鼠标本王0300号的肌肉组织为研究材料,运用PCR技术对其线粒体Cyt b基因进行克隆和测序.结果表明该基因的长度为1140bp,编码380个氨基酸的蛋白质,所编码的蛋白质含有2个N-糖基化位点,1个蛋白激酶C磷酸化位点,4个酪蛋白激酶Ⅱ磷酸化位点,6个N-豆蔻化位点.再以已研究的鼢鼠6个种18个体Cyt b基因序列及氨基酸序列为基础数据,把中华竹鼠(Rhizomys sinensis)作为外群,结合本研究的结果构建系统发育树,所得结果不支持王03001号标本为秦岭鼢鼠.  相似文献   

19.
转录因子可与特定的DNA序列结合调控基因的表达,研究发现转录因子CTCF的结合对乳腺癌等癌症的发生也有一定的影响。以乳腺癌细胞系(MCF-7)和乳腺正常细胞系(HMEC)为研究对象,分别构建癌细胞系特异的和正常细胞系特异的转录因子CTCF结合位点数据集。根据染色质开放、DNA甲基化,以及CTCF、RAD21、SMC3这三个转录因子的结合模体特征,利用支持向量机(SVM)和随机森林(RF)方法对MCF-7和HMEC细胞系特异的CTCF结合位点进行预测,结果表明,SVM的最佳预测准确率为83.09%,RF的最佳预测准确率为84.19%。  相似文献   

20.
蛋白质的残基相对可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,它反映蛋白质三级结构及功能位点的主要特征。文章通过引入免疫算法中的亲和度和浓度概念,提出了一种改进贝叶斯优化算法,形成了贝叶斯优化算法选择局部残基相对可溶性优化依据。利用改进贝叶斯优化算法对2148条蛋白链进行分类实验,分析了窗宽对结果的影响,计算了三组数据在最佳参数状态下平均预测精度为79.7%。与其它方法相比,从结果来看,改进贝叶斯优化算法具有更好分类预测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号