首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
长链非编码RNA(long non-coding RNA,lncRNA)在细胞生物学过程和疾病发展中扮演着关键性角色。由于lncRNA的亚细胞定位和其生物学功能密切相关,因此确定lncRNA的亚细胞定位具有重要意义。目前已有一些基于机器学习的方法来识别lncRNA的亚细胞位置,但在识别人类lncRNA的细胞特异性定位方面的相关工作仍然有限。该模型对人类细胞系lncRNA亚细胞定位问题进行了研究,提取了k-mer、CKSNAP、SRS和TSS特征信息,并对各类特征信息进行了融合,基于XGBoost和LightGBM结合的算法来预测人类细胞系lncRNA的亚细胞位置,并通过10倍交叉检验对模型进行了评估。结果表明,该模型预测人类细胞系lncRNA亚细胞定位的方法与现有的预测方法相比,预测成功率均有一定改进,其基准数据集的AUROC值最高达到92.26%。  相似文献   

2.
长链非编码RNA(Long non-coding RNA,lncRNA)是指一类长度超过200个核苷酸、没有编码蛋白质的能力或编码蛋白质的能力极低的RNA分子,它与人类生命活动和多种疾病息息相关。有研究表明lncRNA的亚细胞定位可以为其功能研究提供重要的生物学信息。越来越多的实验数据证实,lncRNA具有多个位置标记,而现有算法大多集中在识别单个位置标记的lncRNA上。因此,为了识别lncRNA的亚细胞多定位,引入了k-mer核苷酸组成和序列顺序相关因子作为lncRNA的特征向量,采用方差分析(ANOVA)筛选出最优特征子集,基于支持向量机算法来预测lncRNA的亚细胞多定位问题。通过5折交叉检验对模型进行评估。结果表明,基准数据集和独立数据集的预测位置覆盖率分别达到87.22%和71.56%。  相似文献   

3.
细胞被认为是组成生物体机能的最小单位,而蛋白质是组成细胞的生物大分子,在生物体的生命活动中起着至关重要的作用.给定一个蛋白质序列,预测它在哪一个具体的细胞器工作,如细胞膜、线粒体等,该方法称为蛋白质亚细胞定位.预测蛋白质亚细胞定位是了解其功能和确定药物靶点的必要步骤.现有的预测方法只能预测单个蛋白质的亚细胞位置,本文致力于预测多位点的蛋白质亚细胞位置预测,基于含有3 077个凋亡蛋白的数据集,提取其GO特征并使用LIFT_PCC算法进行预测,实验结果表明该方法整体精度达到了59.36%,并通过了性能测试,这表明该方法将成为一个非常有用的高通量工具.  相似文献   

4.
蛋白质亚细胞定位预测研究进展   总被引:1,自引:0,他引:1  
蛋白质的功能与其在细胞中的定位有着密切的联系,新合成的蛋白质必须处于适当的亚细胞位置才能正确的行使其功能.预测蛋白质的亚细胞定位,在确定一个未知蛋白质的功能,了解蛋白质相互作用等方面有着重要的意义.机器学习方法在蛋白质亚细胞定位研究中扮演着一个重要的角色.笔者从数据集的构建、蛋白质序列特征提取方法、蛋白质亚细胞定位预测算法以及预测算法的性能评估等四方面总结了过去十几年间机器学习方法在蛋白质亚细胞定位研究中的应用情况,系统阐述了蛋白质亚细胞定位预测研究的进展.  相似文献   

5.
提出一种蛋白质亚细胞定位预测方法.该方法以位置特异性得分矩阵和基因本体抽取对应特征,结合支持向量机构建多标签分类模型.充分考虑了蛋白质进化信息对其亚细胞定位的影响,并基于文本分类中涉及到的卡方检验的对数变换思想,构建基因本体注释信息的加权系数对其进行加权处理,从而提高预测的准确率.采用支持向量机作为基分类器构建多标签分类模型,进一步提高预测的准确率.通过在目前该领域两个常用的真实数据集上进行的一系列测试结果表明,该方法能有效提高蛋白质亚细胞定位预测的准确率.  相似文献   

6.
蛋白质的结构决定蛋白质的功能,结构域(domain)是蛋白质序列中具有独立功能的区域,而发挥功能的区域在结构上通常是保守的.根据Swiss-Prot建立亚核定位蛋白数据集,分为6个亚核区域共1505条蛋白质序列,对该数据集中的核蛋白进行结构域的搜索与功能的分析,通过提取细胞核内6种亚核定位蛋白含有的结构域信息,找到了染色体、核仁和核膜区域蛋白质的独特的结构域以及6种亚核定位蛋白共有的结构域,这些结构域特征信息可用于进一步预测蛋白质的亚核定位.  相似文献   

7.
叶绿体是植物进行光合作用的主要场所,预测亚叶绿体定位对于研究其功能以及与其他大分子相互作用有重要的意义,因此更准确地预测蛋白质亚叶绿体定位成为一项必要的工作.文章建立了新的蛋白质亚叶绿体数据集,计算了氨基酸单肽分段组分信息,氨基酸二肽组分信息,预测的蛋白质二级结构信息,氨基酸指数信息,基于生物过程和分子功能的GO注释信息,以及基于PSSM矩阵的进化信息和保守信息,结合支持向量机算法(SVM)预测了亚叶绿体蛋白质定位.Jackknife检验的总体预测成功率为93.16%,同时交叉验证和独立测试也获得了较好的结果,分别为93.72%和90.65%.  相似文献   

8.
针对从蛋白质原始序列中预测蛋白质定位及功能信息这个生物信息学中研究的热点问题,提出进化模糊K近邻算法(Evolutionary Fuzzy K-Nearest Neighbor,EFKNN)直接处理多分类问题的预测模型,用EFKNN及其集成直接从蛋白质序列中预测蛋白质亚核定位。采用5种特征提取算法从蛋白质序列中提取特征,训练了5个基于EFKNN的基分类器,并根据得票量大小原则集成每个基分类器的分类结果作为待测样本的输出。将蛋白质亚核定位预测中常用的数据集SNL9作为训练集,利用jackknife测试方法预测了数据集中每条单定位亚核蛋白,正确率为70.0%,表明该模型可以作为蛋白质亚核定位预测的工具或对现有预测模型和方法的补充。  相似文献   

9.
凋亡蛋白质是一种有着特殊功能的蛋白质,在生物体的生长和维持体内平衡中扮演着重要的角色.在细胞凋亡过程中抗与促凋亡蛋白质对细胞凋亡的调控起着不同的作用.如果抗凋亡蛋白质或者促凋亡蛋白质失活,将导致癌症和其它疾病的发生,所以对抗凋亡蛋白质和促凋亡蛋白质的识别,将有助于更好的了解凋亡蛋白的致病机理.建立一个新的凋亡蛋白质数据集,并基于化学位移信息和伪氨基酸组分信息采用支持向量机(SVM)方法对新的数据集进行了预测.融合后的特征信息用Jackknife检验预测成功率达到77.01%,从预测结果可以看出提取有效的特征信息是提高预测成功率的重要因素.  相似文献   

10.
针对现有预测模型的局限性,结合图卷积推荐算法提出一种预测lncRNA和疾病关联关系的模型LGCLDA,使用疾病相关的lncRNA、基因和miRNA信息,构建疾病综合特征。利用图进行疾病信息嵌入提取,实现对潜在与疾病相关的lncRNA的推荐。在相同数据集上采用五折交叉验证法与现有预测模型MHRWR、 SIMCLDA、 ILNCSIM进行比较,提出的模型将AUC值分别提高了15.9%、8.8%、67.0%。对乳腺癌进行了详细的案例研究,预测结果得到了最近的生物医学文献的证明,进一步表明了算法的有效性。  相似文献   

11.
基于传统的以20种氨基酸在蛋白质序列中的组分来预测蛋白质亚细胞定位的方法,运用了"离散小波变换"(Discrete Wavelet Transform,DWT)的数字信号处理技术,对蛋白质序列中氨基酸排序的特征进行提取,并与氨基酸百分组成相结合,对蛋白质亚细胞定位进行了预测.通过观察预测结果发现,引入氨基酸的排列顺序特征后,蛋白质亚细胞定位的预测正确率有了显著的提高.  相似文献   

12.
PCA方法在蛋白质亚细胞定位中应用   总被引:1,自引:0,他引:1  
蛋白质的亚细胞定位与其生物功能密切相关,蛋白质数据库急剧膨胀,迫切需要设计出功能强大的高吞吐量的算法来预测蛋白质的亚细胞位置.许多预测工具都是基于伪氨基酸组成构建而成,应用一种数据分析方法——主成分分析(PCA)法,确定能反映序列次序效应的最优λ值.首先让λ取最大以包含尽可能多的序列次序信息,然后利用主成分分析法提取关键主特征.实验结果表明此方法能解决确定最优λ值困难的问题,且性能优于已有的预测工具.  相似文献   

13.
由于热图像存在无颜色信息,边缘模糊,细节信息较弱等问题,较难获得高质量的图像分割效果.为解决这个问题,在编码-解码(encode-decode)架构的基础上,本文增加了多级像素空间注意模块(multi-level pixel spatial attention module, MPAM)、边缘提取模块(edge extraction module, EEM)和小目标提取模块(tiny target extraction module, TTM).其中,MPAM能使网络充分保留细节的同时捕捉到语义信息,EEM和TTM分别提取具有语义信息的边缘和小目标等细节特征.为提高各类别边缘相交区域像素点和小目标物体的预测精度,设计了专门的损失函数对已获得的边缘和小目标特征进行监督训练,提高各类别边缘相交区域像素点和小目标物体的预测精度.将该方法分别应用于课题组构建的热图像数据集SCUT_SEG、公开的热图像数据集SODA和合成热红外数据集Cityscpae,实验结果表明:本文方法比FCN、PSPNet、Deeplabv3+、MCNet、EC-CNN等5种网络分割算法效果略好,性能提升约2.2个百分点...  相似文献   

14.
线粒体是很重要的半自主性细胞器,主要为细胞提供能量,还承担了许多其他生理功能,而线粒体的某些功能只有在特定亚线粒体位置中才能实现.对亚线粒体定位的研究有助于进一步了解蛋白质的功能.文章计算了蛋白质的进化信息、同源序列的go信息、氨基酸指数信息、氨基酸粘性、氨基酸组分、平均化学位移,并结合mRNA序列的三联体频数,利用支持向量机算法和离散增量算法对蛋白质亚线粒体定位进行预测,在jackknife检验下准确率达到97.64%,同时用独立检验也取得较好的结果.  相似文献   

15.
为解决基于核相关滤波架构的跟踪算法所采用的线性插值模型更新策略无法应对目标外观突变的问题,提出一种结合自适应特征选择和蕨类分类器的目标跟踪算法(DRDCF)。首先对提取的多层目标特征层进行主成分分析降维以抽取有用的特征层;其次,采用每帧均对模板固定更新的进取型滤波器结合满足门限条件才进行更新的保守型滤波器定位目标,将进取型滤波器用于预测目标的下一帧位置,将保守型滤波器用于计算进取型滤波器以及检测器产生的预测位置的可靠性;当进取型滤波器预测位置不可靠时,检测器产生预测位置,最后通过对比两者预测位置的可靠性择优确定目标最佳预测位置。实验结果表明,DRDCF算法可以有效解决目标突变所造成的模型污染以及跟踪失败问题,在OTB2015数据集上精度及覆盖率两项指标相较于结合通道和空间约束的相关滤波算法分别提升了2.78%和4.26%,达到前沿算法的效果。  相似文献   

16.
由于蛋白质的功能与亚细胞位置有关,可以通过预测蛋白质的亚细胞位置来推断蛋白质分子的功能.首先介绍了SOM模型和Batch-Type SOM模型,并用这两个模型分别预测了蛋白质的亚细胞位置,结果表明,使用SOM模型和Batch-Type SOM模型均可以比较准确地预测蛋白质的亚细胞位置;Batch-Type SOM模型在保持预测准确率的同时还可以减少预测的时间.  相似文献   

17.
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测。实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能。  相似文献   

18.
用离散量预测原核生物蛋白质的亚细胞位置   总被引:5,自引:2,他引:5  
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键.  相似文献   

19.
基于支持向量机,以全部和局部氨基酸序列的n肽组分、序列的亲疏水性分布等五种特征提取方法构成特征向量表示蛋白质序列,对六类细胞凋亡蛋白的亚细胞位置进行预测.结果表明,基于氨基酸二肽组成成分构成的特征向量集(以符号DIPE表示)的预测结果高于其它四种特征向量集的预测结果,在Jackknife检验下,总预测成功率达到了89.3%;与现有的方法比较,发现对于Mitochondrial类凋亡蛋白,支持向量机方法有更好的预测效果.  相似文献   

20.
为了提高长非编码RNA(long non-coding RNA,lncRNA)预测的准确性,提出一种基于随机森林算法的lncRNA预测方法.在国际通用的基因注释和基因组序列训练数据集中,首先进行特征选取,然后采用随机森林算法对包含特征信息的数据集进行模型训练.选取的特征包含14种三聚核酸序列(ACG、CCG、CGA、CGC、CGG、CGT、CTA、GCG、GGG、GTA、TAA、TAC、TAG、TCG)的占比、终止密码子在3种阅读框中的数量标准差、GC含量、蛋白质编码能力、转录本长度、外显子个数、平均外显子长度和保守性分值.10折交叉验证结果表明,该预测方法在真阳性率、精确率、召回率、F值和AUC值等性能指标方面均优于其他算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号