首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
长链非编码RNA(Long non-coding RNA,lncRNA)是指一类长度超过200个核苷酸、没有编码蛋白质的能力或编码蛋白质的能力极低的RNA分子,它与人类生命活动和多种疾病息息相关。有研究表明lncRNA的亚细胞定位可以为其功能研究提供重要的生物学信息。越来越多的实验数据证实,lncRNA具有多个位置标记,而现有算法大多集中在识别单个位置标记的lncRNA上。因此,为了识别lncRNA的亚细胞多定位,引入了k-mer核苷酸组成和序列顺序相关因子作为lncRNA的特征向量,采用方差分析(ANOVA)筛选出最优特征子集,基于支持向量机算法来预测lncRNA的亚细胞多定位问题。通过5折交叉检验对模型进行评估。结果表明,基准数据集和独立数据集的预测位置覆盖率分别达到87.22%和71.56%。  相似文献   

2.
长链非编码RNA(lncRNA)的亚细胞位置信息对于了解其复杂的生物学功能和生物学过程具有重要的意义。建立了一个lncRNA的亚细胞定位数据集,包括细胞核、细胞质基质、核糖体和外泌体四个位置,提取了lncRNA的多种特征信息,并对各类特征进行了特征融合。在利用SMOTE(Synthetic Minority Oversampling Technique)方法对数据集进行平衡优化的基础上,采用支持向量机(SVM)算法对lncRNA的亚细胞定位进行分类预测。Jackknife检验结果显示总体预测成功率可达98.54%,表明所提取的特征信息对于lncRNA的亚细胞定位预测有很好的效果,可以为了解lncRNA的生物学功能提供帮助。  相似文献   

3.
提出一种蛋白质亚细胞定位预测方法.该方法以位置特异性得分矩阵和基因本体抽取对应特征,结合支持向量机构建多标签分类模型.充分考虑了蛋白质进化信息对其亚细胞定位的影响,并基于文本分类中涉及到的卡方检验的对数变换思想,构建基因本体注释信息的加权系数对其进行加权处理,从而提高预测的准确率.采用支持向量机作为基分类器构建多标签分类模型,进一步提高预测的准确率.通过在目前该领域两个常用的真实数据集上进行的一系列测试结果表明,该方法能有效提高蛋白质亚细胞定位预测的准确率.  相似文献   

4.
细胞被认为是组成生物体机能的最小单位,而蛋白质是组成细胞的生物大分子,在生物体的生命活动中起着至关重要的作用.给定一个蛋白质序列,预测它在哪一个具体的细胞器工作,如细胞膜、线粒体等,该方法称为蛋白质亚细胞定位.预测蛋白质亚细胞定位是了解其功能和确定药物靶点的必要步骤.现有的预测方法只能预测单个蛋白质的亚细胞位置,本文致力于预测多位点的蛋白质亚细胞位置预测,基于含有3 077个凋亡蛋白的数据集,提取其GO特征并使用LIFT_PCC算法进行预测,实验结果表明该方法整体精度达到了59.36%,并通过了性能测试,这表明该方法将成为一个非常有用的高通量工具.  相似文献   

5.
细胞类型鉴定是单细胞RNA测序的主要任务之一.针对整个问题,提出基于随机森林的细胞类型自动识别(automatic identification of cell type based on random forest, AICTRF)方法来识别单细胞测序数据中的细胞类型,该方法使用随机森林分类模型进行训练,根据训练的模型进而预测未知的细胞类型.在人类外周血单核细胞(PBMC)测序数据集上训练了随机森林分类模型,利用该模型预测了人类PBMC中B细胞的相关亚型细胞类型.实验结果表明,该方法可以帮助相关研究人员快速而有效地自动识别单细胞测序数据中的细胞类型.  相似文献   

6.
基于传统的以20种氨基酸在蛋白质序列中的组分来预测蛋白质亚细胞定位的方法,运用了"离散小波变换"(Discrete Wavelet Transform,DWT)的数字信号处理技术,对蛋白质序列中氨基酸排序的特征进行提取,并与氨基酸百分组成相结合,对蛋白质亚细胞定位进行了预测.通过观察预测结果发现,引入氨基酸的排列顺序特征后,蛋白质亚细胞定位的预测正确率有了显著的提高.  相似文献   

7.
由于蛋白质的功能与亚细胞位置有关,可以通过预测蛋白质的亚细胞位置来推断蛋白质分子的功能.首先介绍了SOM模型和Batch-Type SOM模型,并用这两个模型分别预测了蛋白质的亚细胞位置,结果表明,使用SOM模型和Batch-Type SOM模型均可以比较准确地预测蛋白质的亚细胞位置;Batch-Type SOM模型在保持预测准确率的同时还可以减少预测的时间.  相似文献   

8.
蛋白质亚细胞定位预测研究进展   总被引:1,自引:0,他引:1  
蛋白质的功能与其在细胞中的定位有着密切的联系,新合成的蛋白质必须处于适当的亚细胞位置才能正确的行使其功能.预测蛋白质的亚细胞定位,在确定一个未知蛋白质的功能,了解蛋白质相互作用等方面有着重要的意义.机器学习方法在蛋白质亚细胞定位研究中扮演着一个重要的角色.笔者从数据集的构建、蛋白质序列特征提取方法、蛋白质亚细胞定位预测算法以及预测算法的性能评估等四方面总结了过去十几年间机器学习方法在蛋白质亚细胞定位研究中的应用情况,系统阐述了蛋白质亚细胞定位预测研究的进展.  相似文献   

9.
PCA方法在蛋白质亚细胞定位中应用   总被引:1,自引:0,他引:1  
蛋白质的亚细胞定位与其生物功能密切相关,蛋白质数据库急剧膨胀,迫切需要设计出功能强大的高吞吐量的算法来预测蛋白质的亚细胞位置.许多预测工具都是基于伪氨基酸组成构建而成,应用一种数据分析方法——主成分分析(PCA)法,确定能反映序列次序效应的最优λ值.首先让λ取最大以包含尽可能多的序列次序信息,然后利用主成分分析法提取关键主特征.实验结果表明此方法能解决确定最优λ值困难的问题,且性能优于已有的预测工具.  相似文献   

10.
用离散量方法预测细胞凋亡蛋白的亚细胞位置   总被引:2,自引:0,他引:2  
细胞凋亡蛋白的亚细胞位置与它的功能紧密相联.基于一个凋亡蛋白的亚细胞位置主要决定于它的氨基酸序列这一观点,提出了一种新的预测凋亡蛋白亚细胞位置的算法——离散量方法.计算了蛋白质一级序列中紧邻残基对的出现个数,作为离散源中的参数,利用离散增量极小化对四类凋亡蛋白进行定位预测.采用Zhou和Doctor使用的数据库,通过Re-sub-stitution检验和Jack-knife检验方法,离散量方法比他们使用的协变判别式算法总体预测成功率分别高1.0%和12.2%;采用我们自己整理的扩大以后的数据库,通过Re-substitution检验和Jack-knife检验方法,总体预测成功率分别为88.1%和78.1%.  相似文献   

11.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

12.
为开发具有生物启发式空间表征和自主定位能力的导航新方法,提出一种基于位置细胞的空间表征及位置估计模型.该模型通过径向基函数神经网络实现网格细胞到位置细胞的转换,生成自运动感知下的位置细胞.同时,通过环境感知和相似性度量生成视觉感知下的位置细胞.最后,采用信息加权的方式对前两种位置细胞进行融合,生成多信息感知下的位置细胞,以此表征已探索的空间.当运行体在已表征空间中运行时,基于重心估计原理对群体位置细胞放电活动进行处理,实现自主定位.仿真分析结果表明,所提模型能够实现已探索空间的内部表征,生成的位置细胞具有生物位置细胞的放电特性,且多信息感知下的空间表征在某一感知方式存在误差时仍表现出好的位置估计性能.  相似文献   

13.
为了提高长非编码RNA(long non-coding RNA,lncRNA)预测的准确性,提出一种基于随机森林算法的lncRNA预测方法.在国际通用的基因注释和基因组序列训练数据集中,首先进行特征选取,然后采用随机森林算法对包含特征信息的数据集进行模型训练.选取的特征包含14种三聚核酸序列(ACG、CCG、CGA、CGC、CGG、CGT、CTA、GCG、GGG、GTA、TAA、TAC、TAG、TCG)的占比、终止密码子在3种阅读框中的数量标准差、GC含量、蛋白质编码能力、转录本长度、外显子个数、平均外显子长度和保守性分值.10折交叉验证结果表明,该预测方法在真阳性率、精确率、召回率、F值和AUC值等性能指标方面均优于其他算法.  相似文献   

14.
显微图像自动分析中的细胞定位识别   总被引:1,自引:1,他引:0  
给出一种利用计算机技术自动识别显微细胞准确位置及检测细胞个数的方法. 对显微细胞图像进行增强处理后, 利用圆弧算法准确定位细胞的位置, 再根据红白细胞的自身特点从图片中有效地分离出红白细胞, 对其进行识别和定量分析. 实验结果表明, 该算法能有效地识别细胞的位置并加以区分, 减少了人为因素的误诊, 并提高了诊断效率和精度.  相似文献   

15.
根据革兰氏阴性菌蛋白不同亚细胞位置、其一级结构中氨基酸含量、氨基酸的关联性及亲疏水性的不同,利用最小离散增量的方法,分别以20个氨基酸组份、400个氨基酸二联体组份及氨基酸亲疏水性在蛋白质上的分布为参数构成离散源,对革兰氏阴性菌蛋白的5类亚细胞定位进行预测,分别用self—consistency方法和Jack-knife方法预测,均取得了较高的预测成功率.  相似文献   

16.
针对蛋白质相互作用(protein-protein interaction,PPI)网络中存在大量噪声,以及现有关键蛋白识别方法的挖掘效率和预测准确率不高等问题,提出一种基于复合物信息和亚细胞定位信息(united protein complexes and subcellular locallizations,PCSL)来识别关键蛋白质。首先,整合PPI网络的拓扑属性、生物属性和空间属性构建加权网络,以降低PPI网络中噪声的影响,达到提升PPI网络的可靠性的目的;其次,根据复合物信息和空间信息,设计一种衡量蛋白质关键性的度量,从多维角度强化关键蛋白质在PPI中的重要程度;最后,利用基于PPI网络拓扑特性的寻优算法,设计一种新的试探策略,提升挖掘关键蛋白质的效率。PCSL方法应用在DIP(database of interacting protein)数据集上进行验证。实验结果表明,与其他10种关键蛋白质识别方法相比较,该方法具有较好的识别性能,能够识别更多的关键蛋白质。  相似文献   

17.
基于WSNs的模糊三角形定位模型研究   总被引:1,自引:0,他引:1  
针对现有range-based定位模型与range-free定位模型存在的问题——定位精度低、定位延迟大、复杂度高和节点密度大等特点,提出了一种基于模糊识别的非测距定位模型.该模型首先在定位空间内设置若干个样本点,然后将无线传感器网络的信号强度与模糊数学的思想相结合,通过计算未知点与各个样本点的贴近度来获取该点的位置信息,该方法简化了坐标求解.最后借助几何解析与NS-2仿真手段对该模型进行了验证,结果表明模糊三角形定位模型具有较高的性能.  相似文献   

18.
为解决类似血液环境中点细胞的自动识别与侦测,提高点细胞的人工辨别和计数效率、避免人为统计误差,达到对点细胞信息状态的快速、自动、准确统计,设计了点细胞识别与匹配流程。通过分析点细胞背景图像场,对其图像进行相应切分、二值化、去燥等处理后,利用细节特征算子得到点细胞信息特征空间场。通过特征向量的决策选优改善传统的搜索计算方法,避免了大量信息冗余查询;采用空间决策性能函数优化搜索,减少了特征提取计算量,提高了点细胞识别准确性与状态定位。该方法可逐步应用在医院等领域进行液体环境中的细胞识别、计数、运动轨迹追踪等。  相似文献   

19.
为实现UCAV认知导航对地形空间环境感知信息的表征,提出了一种基于IHDR树的位置细胞构建方法。利用SURF算法提取环境中高鲁棒性的特征点,以特征点描述矢量及其在地理空间中的位置组合为路标信息,生成训练样本,以IHDR建树原则对路标信息双重聚类,然后将聚类后的叶子节点作为表征对应地形空间环境的位置细胞,完成位置细胞的构建。仿真结果表明,该方法构建的位置细胞能有效表征地形空间环境,对一定噪声干扰下的地形空间环境也具有识别能力。  相似文献   

20.
为实现UCAV认知导航对地形空间环境感知信息的表征,提出了一种基于IHDR树的位置细胞构建方法。利用SURF算法提取环境中高鲁棒性的特征点,以特征点描述矢量及其在地理空间中的位置组合为路标信息,生成训练样本,以IHDR建树原则对路标信息双重聚类,然后将聚类后的叶子节点作为表征对应地形空间环境的位置细胞,完成位置细胞的构建。仿真结果表明,该方法构建的位置细胞能有效表征地形空间环境,对一定噪声干扰下的地形空间环境也具有识别能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号