首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于离散增量和协变判别函数识别蛋白质亚核定位   总被引:1,自引:0,他引:1  
利用离散增量结合协变判别函数,选取氨基酸组份和N端氨基酸二肽组份为信息参数,对蛋白质亚核定位进行预测.在序列相似性小于等于25%时,406个单定位亚核蛋白Jackknife检验总预测成功率为75.9%,相关系数CC为0.644,把多定位亚核蛋白作为独立测试集,92个多定位亚核蛋白总预测成功率为78.3%.在序列相似性小于等于65%时,504个单定位亚核蛋白Jackknife检验总预测成功率为75.6%,相关系数CC为0.643,92个多定位亚核蛋白总预测成功率为80.4%.与 Lei等人利用Lei-SVM方法对该数据库预测结果相比,单定位亚核蛋白总预测成功率比Lei等人高9.1%,CC值比Lei等人高0.124,多定位亚核蛋白总预测成功率比Lei等人高15.2%.  相似文献   

2.
在构建小鼠蛋白质亚细胞定位和小鼠跨膜蛋白类型数据库的基础上,利用离散增量结合协变判别函数分别对小鼠蛋白质亚细胞定位和小鼠跨膜蛋白类型进行了预测.对小鼠蛋白质亚细胞定位数据库,Self-consistency检验和Jackknife检验预测成功率分别达到99.0%和75.6%;对小鼠跨膜蛋白类型数据库,Self-consistency检验和Jackknife检验预测成功率分别达到85.6%和77.5%.  相似文献   

3.
提出一种蛋白质亚细胞定位预测方法.该方法以位置特异性得分矩阵和基因本体抽取对应特征,结合支持向量机构建多标签分类模型.充分考虑了蛋白质进化信息对其亚细胞定位的影响,并基于文本分类中涉及到的卡方检验的对数变换思想,构建基因本体注释信息的加权系数对其进行加权处理,从而提高预测的准确率.采用支持向量机作为基分类器构建多标签分类模型,进一步提高预测的准确率.通过在目前该领域两个常用的真实数据集上进行的一系列测试结果表明,该方法能有效提高蛋白质亚细胞定位预测的准确率.  相似文献   

4.
线粒体是很重要的半自主性细胞器,主要为细胞提供能量,还承担了许多其他生理功能,而线粒体的某些功能只有在特定亚线粒体位置中才能实现.对亚线粒体定位的研究有助于进一步了解蛋白质的功能.文章计算了蛋白质的进化信息、同源序列的go信息、氨基酸指数信息、氨基酸粘性、氨基酸组分、平均化学位移,并结合mRNA序列的三联体频数,利用支持向量机算法和离散增量算法对蛋白质亚线粒体定位进行预测,在jackknife检验下准确率达到97.64%,同时用独立检验也取得较好的结果.  相似文献   

5.
叶绿体是植物进行光合作用的主要场所,预测亚叶绿体定位对于研究其功能以及与其他大分子相互作用有重要的意义,因此更准确地预测蛋白质亚叶绿体定位成为一项必要的工作.文章建立了新的蛋白质亚叶绿体数据集,计算了氨基酸单肽分段组分信息,氨基酸二肽组分信息,预测的蛋白质二级结构信息,氨基酸指数信息,基于生物过程和分子功能的GO注释信息,以及基于PSSM矩阵的进化信息和保守信息,结合支持向量机算法(SVM)预测了亚叶绿体蛋白质定位.Jackknife检验的总体预测成功率为93.16%,同时交叉验证和独立测试也获得了较好的结果,分别为93.72%和90.65%.  相似文献   

6.
长链非编码RNA(Long non-coding RNA,lncRNA)是指一类长度超过200个核苷酸、没有编码蛋白质的能力或编码蛋白质的能力极低的RNA分子,它与人类生命活动和多种疾病息息相关。有研究表明lncRNA的亚细胞定位可以为其功能研究提供重要的生物学信息。越来越多的实验数据证实,lncRNA具有多个位置标记,而现有算法大多集中在识别单个位置标记的lncRNA上。因此,为了识别lncRNA的亚细胞多定位,引入了k-mer核苷酸组成和序列顺序相关因子作为lncRNA的特征向量,采用方差分析(ANOVA)筛选出最优特征子集,基于支持向量机算法来预测lncRNA的亚细胞多定位问题。通过5折交叉检验对模型进行评估。结果表明,基准数据集和独立数据集的预测位置覆盖率分别达到87.22%和71.56%。  相似文献   

7.
蛋白质亚细胞定位预测研究进展   总被引:1,自引:0,他引:1  
蛋白质的功能与其在细胞中的定位有着密切的联系,新合成的蛋白质必须处于适当的亚细胞位置才能正确的行使其功能.预测蛋白质的亚细胞定位,在确定一个未知蛋白质的功能,了解蛋白质相互作用等方面有着重要的意义.机器学习方法在蛋白质亚细胞定位研究中扮演着一个重要的角色.笔者从数据集的构建、蛋白质序列特征提取方法、蛋白质亚细胞定位预测算法以及预测算法的性能评估等四方面总结了过去十几年间机器学习方法在蛋白质亚细胞定位研究中的应用情况,系统阐述了蛋白质亚细胞定位预测研究的进展.  相似文献   

8.
亚细胞位点是蛋白质很重要的功能特征.找到一种有效的、可信度高的预测蛋白质位点的方法是很必要的.提出了一种基于马尔科夫模型的改进预测方法.首先,对于一条给定的蛋白质序列,通过计算在马尔科夫模型下20个氨基酸残基的状态转移矩阵,建立一个420维的特征向量,然后利用支持向量机进行训练和预测,最后夹克刀检验证实了该方法的预测精度与以前的马尔科夫模型相比得到了一定的提高.  相似文献   

9.
基于支持向量机,以全部和局部氨基酸序列的n肽组分、序列的亲疏水性分布等五种特征提取方法构成特征向量表示蛋白质序列,对六类细胞凋亡蛋白的亚细胞位置进行预测.结果表明,基于氨基酸二肽组成成分构成的特征向量集(以符号DIPE表示)的预测结果高于其它四种特征向量集的预测结果,在Jackknife检验下,总预测成功率达到了89.3%;与现有的方法比较,发现对于Mitochondrial类凋亡蛋白,支持向量机方法有更好的预测效果.  相似文献   

10.
构建了含有五个亚核区域共426条蛋白质的单定位人类核蛋白数据库.选取蛋白质相互作用信息分数为信息参数,提出通过引入蛋白质一级间接相互作用预测蛋白质亚核定位的新算法,对人类核蛋白亚核定位进行了预测.对染色质、核仁两区域351条蛋白质的Jackknife检验总预测成功率为91.04%.对染色质、核仁、核基质、核斑四区域413条蛋白质的Jackknife检验总预测成功率为79.75%.  相似文献   

11.
基于传统的以20种氨基酸在蛋白质序列中的组分来预测蛋白质亚细胞定位的方法,运用了"离散小波变换"(Discrete Wavelet Transform,DWT)的数字信号处理技术,对蛋白质序列中氨基酸排序的特征进行提取,并与氨基酸百分组成相结合,对蛋白质亚细胞定位进行了预测.通过观察预测结果发现,引入氨基酸的排列顺序特征后,蛋白质亚细胞定位的预测正确率有了显著的提高.  相似文献   

12.
针对从蛋白质原始序列中预测蛋白质定位及功能信息这个生物信息学中研究的热点问题,提出进化模糊K近邻算法(Evolutionary Fuzzy K-Nearest Neighbor,EFKNN)直接处理多分类问题的预测模型,用EFKNN及其集成直接从蛋白质序列中预测蛋白质亚核定位。采用5种特征提取算法从蛋白质序列中提取特征,训练了5个基于EFKNN的基分类器,并根据得票量大小原则集成每个基分类器的分类结果作为待测样本的输出。将蛋白质亚核定位预测中常用的数据集SNL9作为训练集,利用jackknife测试方法预测了数据集中每条单定位亚核蛋白,正确率为70.0%,表明该模型可以作为蛋白质亚核定位预测的工具或对现有预测模型和方法的补充。  相似文献   

13.
长链非编码RNA(lncRNA)的亚细胞位置信息对于了解其复杂的生物学功能和生物学过程具有重要的意义。建立了一个lncRNA的亚细胞定位数据集,包括细胞核、细胞质基质、核糖体和外泌体四个位置,提取了lncRNA的多种特征信息,并对各类特征进行了特征融合。在利用SMOTE(Synthetic Minority Oversampling Technique)方法对数据集进行平衡优化的基础上,采用支持向量机(SVM)算法对lncRNA的亚细胞定位进行分类预测。Jackknife检验结果显示总体预测成功率可达98.54%,表明所提取的特征信息对于lncRNA的亚细胞定位预测有很好的效果,可以为了解lncRNA的生物学功能提供帮助。  相似文献   

14.
用离散量方法预测蛋白质亚细胞定位   总被引:2,自引:2,他引:2  
根据蛋白质的亚细胞定位,将蛋白质分为四类,用离散量的数学理论,提出了预测蛋白质的亚细胞定位理论方法,利用蛋白质中氨基酸组分,通过计算离散增量和离散有限系数预测蛋白质的亚细胞定位,用self—consistency和Jackknife两种方法测试均获得较高的预测成功率。结果表明:蛋白质类中包含的蛋白质数越多,预测成功率越高。  相似文献   

15.
细胞被认为是组成生物体机能的最小单位,而蛋白质是组成细胞的生物大分子,在生物体的生命活动中起着至关重要的作用.给定一个蛋白质序列,预测它在哪一个具体的细胞器工作,如细胞膜、线粒体等,该方法称为蛋白质亚细胞定位.预测蛋白质亚细胞定位是了解其功能和确定药物靶点的必要步骤.现有的预测方法只能预测单个蛋白质的亚细胞位置,本文致力于预测多位点的蛋白质亚细胞位置预测,基于含有3 077个凋亡蛋白的数据集,提取其GO特征并使用LIFT_PCC算法进行预测,实验结果表明该方法整体精度达到了59.36%,并通过了性能测试,这表明该方法将成为一个非常有用的高通量工具.  相似文献   

16.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

17.
用离散量方法预测细胞凋亡蛋白的亚细胞位置   总被引:2,自引:0,他引:2  
细胞凋亡蛋白的亚细胞位置与它的功能紧密相联.基于一个凋亡蛋白的亚细胞位置主要决定于它的氨基酸序列这一观点,提出了一种新的预测凋亡蛋白亚细胞位置的算法——离散量方法.计算了蛋白质一级序列中紧邻残基对的出现个数,作为离散源中的参数,利用离散增量极小化对四类凋亡蛋白进行定位预测.采用Zhou和Doctor使用的数据库,通过Re-sub-stitution检验和Jack-knife检验方法,离散量方法比他们使用的协变判别式算法总体预测成功率分别高1.0%和12.2%;采用我们自己整理的扩大以后的数据库,通过Re-substitution检验和Jack-knife检验方法,总体预测成功率分别为88.1%和78.1%.  相似文献   

18.
一种新的蛋白质亚细胞定位预测训练集构造方法   总被引:1,自引:0,他引:1  
设计了一种新的蛋白质亚细胞定位预测训练集构造方法.该方法针对传统预测方法缺乏足够的实验标记数据的问题,基于主动学习策略从非实验标记蛋白质数据中主动选择有效数据,并与原有的实验标记数据共同训练预测模型,以提高基准分类器的预测精度.结合支持向量机分类器,该方法在病毒蛋白质独立测试集上进行了预测实验,测试结果表明,该方法能够有效地提高基准分类器的预测能力,性能优于现有的病毒蛋白质预测系统.  相似文献   

19.
长链非编码RNA(long non-coding RNA,lncRNA)在细胞生物学过程和疾病发展中扮演着关键性角色。由于lncRNA的亚细胞定位和其生物学功能密切相关,因此确定lncRNA的亚细胞定位具有重要意义。目前已有一些基于机器学习的方法来识别lncRNA的亚细胞位置,但在识别人类lncRNA的细胞特异性定位方面的相关工作仍然有限。该模型对人类细胞系lncRNA亚细胞定位问题进行了研究,提取了k-mer、CKSNAP、SRS和TSS特征信息,并对各类特征信息进行了融合,基于XGBoost和LightGBM结合的算法来预测人类细胞系lncRNA的亚细胞位置,并通过10倍交叉检验对模型进行了评估。结果表明,该模型预测人类细胞系lncRNA亚细胞定位的方法与现有的预测方法相比,预测成功率均有一定改进,其基准数据集的AUROC值最高达到92.26%。  相似文献   

20.
用离散量预测原核生物蛋白质的亚细胞位置   总被引:5,自引:2,他引:5  
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号