首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
为解决传统的基因识别算法主要关注编码区的整体特性,而并不着重考虑个别位点的信息,因此难以准确地识别出剪接位点的缺点,提出了基于条件随机场的剪接位点预测方法,条件随机场能够更好的处理标记数据之间的依赖关系,并且能够避免数据标记偏置的问题。实验结果表明基于条件随机场的剪接位点预测方法是一种合适的方法,能够取得更好的效果。  相似文献   

2.
基于剪接位点竞争机制,剪接位点对分成竞争性剪接位点对和非竞争性剪接位点对.并且竞争性和非竞争性剪接位点对的分类是一个很重要的工作.结合位置权重矩阵、离散量和支持向量机,提出了预测竞争性和非竞争性剪接位点对的新方法.独立检验集中90%以上的剪接位点对能被正确地分类成竞争性和非竞争性剪接位点对.此预测成功率高于其它方法.  相似文献   

3.
为提高剪接位点识别的精度,提出一种基于综合信息的剪接位点识别方法.通过分析供体位点与受体位点的剪接信号、剪接序列、位点附近序列的二级结构,以及剪接因子作用过程等特征,分别为供体位点与受体位点建立信号模型和序列模型;应用Vienna软件中的Mfold包预测每个剪接位点附近序列最稳定的二级结构,将传统的四字符核酸表转化为八字符核酸表,每个序列用八字符进行描述,用结合了结构信息的序列对信号模型和序列模型进行训练学习;最后用训练好的模型进行剪接位点的识别.实验结果证明:该方法对剪接位点的识别取得了很好的效果,其识别精度可达95%以上.  相似文献   

4.
隐Markov模型在剪接位点识别中的应用   总被引:6,自引:0,他引:6  
剪接位点的识别是基因识别中的一个重要环节。由于现有的基因识别算法主要关注编码区的整体特性 ,而并不着重考虑个别位点的信息 ,因此难以准确地识别出剪接位点。考虑到剪接位点附近的保守序列的相邻碱基之间应该存在某种相关性 ,利用一阶 Markov链建立了表述这种相关性的模型 ,在此基础之上 ,设计了专门用于剪接拉点识别的隐马氏模型 (HMM)方法。实验结果表明 ,用 HMM描述剪接位点附近序列符合实际情况 ,并且利用这一方法进行剪接位点的识别可以很好地提取位点附近保守序列在边缘分布与条件分布 (转移概率 )上的统计特征。使用该方法对真实剪接位点和虚假剪接位点进行识别 ,识别率均可达 90 %以上。  相似文献   

5.
利用RNA二级结构的预测程序,通过对148个人类基因由EST验证的发生剪接的784个供体位点和受体位点以及101个人类基因由EST验证的发生选择性剪接的418个供体位点和受体位点附近的二级结构的预测,寻找真核基因剪接位点及选择性剪接位点的二级结构特征。通过详细研究剪接位点及选择性剪接位点在RNA二级结构中的结构分布,获得了一些剪接位点及选择性剪接位点在RNA二级结构中结构分布的规律性。结果表明,在RNA剪接及选择性剪接过程中,顺式作用元件具有结构特定性。这种结构特定性可以从结构上对真核基因剪接及选择性剪接机制进行一些合理的解释,有利于对真核基因剪接位点的识别及其表达调控机理的进一步理解。  相似文献   

6.
老鼠和人类基因组的同源性超过90%,老鼠基因组的研究为人类基因组序列研究提供了参考数据.统计分析了老鼠盒式外显子和内含子保留型剪接位点附近的序列保守性特征,并据此分别利用基于多样性指标的支持向量机和二次判别法对老鼠基因组中这两种剪接类型的供体端和受体端可变剪接位点进行了预测.独立检验结果表明,盒式外显子和内含子保留型的供体端和受体端可变剪接位点的预测均能达到较高的识别精度.  相似文献   

7.
人类剪接位点的识别是当前研究的一个重要课题.根据人类剪接位点附近区域的保守性,以位置关联权重矩阵及DNA结构信息作为特征输入参数,应用支持向量机(SVM)对人类基因组中的供体端和受体端剪接位点做了预测.对于供体端,5-fold交叉检验总体预测精度为92.55%,3-way data split检验总体预测精度为92.25%;受体端5-fold交叉检验总体预测精度为90.70%,3-way data split检验总体预测精度为89.87%.  相似文献   

8.
基于特征挖掘与融合的剪接位点识别   总被引:3,自引:1,他引:3  
在基于保守序列这一信号特征识别剪接位点的基础上.挖掘了可用于剪接位点识别的其他多个特征(包括剪接位点上、下游序列的碱基组成。剪接位点信号和上、下游序列的碱基组成随位点邻近序列C+G含量的变化等统计特征),建立了描述这些特征的模型。设计了能有效融合这些特征对剪接位点进行识别的对数线性模型,开发了剪接位点识别程序SpliceKey.测试结果表明:SpliceKey识别剪接位点的精度不仅较WAM方法有显著的提高,而且也优于国际上最新发布的剪接位点识别软件DGSplice.SpliceKey已提供网络服务:http://infosci.hust.edu.cn/SpliceKey/.  相似文献   

9.
基于快速傅里叶变换的剪接特征提取   总被引:1,自引:1,他引:0  
挖掘剪接特征是剪接位点识别算法的基础,在频域空间挖掘对位点识别有帮助的特征至关重要.利用基于快速傅里叶变换的剪接特征提取方法对其进行特征提取,该方法能够将时域信息转化到频域中,以此来构建所需的频域特征,为了比较还构建了位置特征与统计特征. 实验结果表明将频域特征加入剪接位点识别中能够有效地提高识别精度,这也表明将信号处理方法应用于生物信息学领域是可行有效的.   相似文献   

10.
为降低基因剪接位点识别算法复杂度和计算量,根据剪接位点上下游序列的保守特性及碱基组成随位点邻近序列GC含量变化等统计特征,建立Takagi-Sugeno模糊模型.通过模型输出值和阈值比较,判断真实的剪接位点.基于模糊似然函数的模糊聚类算法确定模型结构和前件参数,并结合最小二乘法完成该模型后件参数的识别.仿真结果表明,该算法简单,可使模糊模型的结构辨识和参数辨识同时完成,从而实现模糊模型的快速识别;能够很好地提取剪接位点附近保守序列的统计特征,为剪接位点的识别提供一种新的方法.  相似文献   

11.
Motivation: It was found that high accuracy splicing-site recognition of rice ( Oryza satlva L. ) DNA sequence is especially difficult. We described a new method for the splicing-site recognition of rice DNA sequences. Method: Based on the intron in eukaryotic organisms conforming to the principle of GT-AG, we used support vector machines (SVM) to predict the splicing sites. By machine learning, we built a model and used it to test the effect of the test data set of true and pseudo splicing sites. Results : The prediction accuracy we obtained was 87.53% at the true 5‘ end splicing site and 87.37% at the true 3‘ end splicing sites. The results suggested that the SVM approach could achieve higher accuracy than the previous approaches.  相似文献   

12.
It is of significance for splice site prediction to develop novel algorithms that combine the sequence patterns of regulatory elements such as enhancers and silencers with the patterns of splicing signals. In this paper, a statistical model of splicing signals was built based on the entropy density profile (EDP) method, weight array method (WAM) and K test; moreover, the model of splicing regulatory elements was developed by an unsupervised self-learning method to detect motifs associated with regulatory elements. With two models incorporated, a multi-level support vector machine (SVM) system was devised to perform ab initio prediction for splice sites originating from DNA sequence in eukaryotic genome. Results of large scale tests on human genomic splice sites show that the new method achieves a comparative high performance in splice site prediction. The method is demonstrated to be with at least the same level of performance and usually better performance than the existing SpliceScan method based on modeling regulatory elements, and shown to have higher accuracies than the traditional methods with modeling splicing signals such as the GeneSplicer. In particular, the method has evident advantage over splice site prediction for the genes with lower GC content.  相似文献   

13.
Domain-based protein-protein interactions( PPIs) is a problem that has drawn the attentions of many researchers in recent years and it has been studied using lots of computational approaches from many different perspectives. Existing domain-based methods to predict PPIs typically infer domain interactions from known interacting sets of proteins. However,these methods are costly and complex to implement. In this paper, a simple and effective prediction model is proposed. In this model,an improved multiinstance learning( MIL) algorithm( MilCaA) is designed that doesn't need to take the domain interactions into consideration to construct MIL bags. Then, the pseudo-amino acid composition( PseAAC) transformation method is used to encode the instances in a multi-instance bag and the principal components analysis( PCA) is also used to reduce the feature dimension. Finally, several traditional machine learning and MIL methods are used to verify the proposed model. Experimental results demonstrate that MilCaA performs better than state-of-the-art techniques including the traditional machine learning methods which are widely used in PPIs prediction.  相似文献   

14.
针对目前高炉炼铁模型精度不高问题,提出建立高炉生产过程中精确的多目标优化模型.首先对高炉的海量数据进行了数据预处理,其次采用支持向量机、随机森林、梯度提升树、XGBoost、LightGBM、人工神经网络6种机器学习算法对高炉焦比、K值进行了预测,并采用特征工程和超参调优对机器学习预测进行了优化,最后采用新的集成学习方法进行预测.预测结果不仅精准度高而且具有很好的鲁棒性.在机器学习的基础之上,采用NSGA-Ⅱ遗传算法对高炉参数进行了多目标优化分析,得到了Pareto最优解,高炉操作者可以根据该多目标优化结果针对不同的需求选择相应的控制参数.  相似文献   

15.
基于支持向量机岩溶塌陷的智能预测模型   总被引:5,自引:0,他引:5  
在综合分析了各种岩溶塌陷预测方法和介绍支持向量机的基础上,提出基于支持向量机的岩溶塌陷预测方法,运用Matlab语言编程,建立了相应的岩溶塌陷预测模型.以已有的岩溶地面塌陷实例为学习样本,进行学习测试,得到训练效果较佳的预测模型,并用此模型对某市岩溶塌陷进行预测.结果表明,支持向量机预测模型具有较高精度,在岩溶塌陷预测研究中具有广阔的应用前景.  相似文献   

16.
提出一种基于样本分布的极限学习机预测模型WELMSD.该模型先用kN近邻密度估计方法估计出样本的密度值,再用估计出的密度值给传统ELM的经验风险项加权,克服传统ELM在对时间序列进行预测时忽略样本分布的缺点.基于Rossler混沌时间序列和上证、深证股票数据的实验仿真结果证明了所提算法的有效性,且当近邻参数k_N取值较小时,所提模型对参数不敏感,是一种更优的多变量时间序列预测模型.  相似文献   

17.
针对井口压力控制作业中传统方法过度依赖专家经验和数学模型运算精度的问题,提出一种基于随机森林(Random Forest,RF)的多模型融合算法对压井方式进行分类判断.首先,将专家经验结构化、数据化,转化成可被机器学习模型使用的数据形式,同时,结合油气井的基础数据和工况参数,作为智能模型的重要参数来描述压井作业的特征空...  相似文献   

18.
在冷轧弯曲矫直过程中,针对拉矫机工艺参数设置问题,利用经验公式、有限元仿真建立的延伸率模型预测精度不高.为提高预测精度,基于传统解析模型与机器学习算法进行研究,比较了两种方法预测模型的精度,得到机器学习算法的延伸率预测模型要比数值解析模型的拟合优度高.比较BP神经网络算法和支持向量机(SVM)算法,得到两种机器学习算法的预测模型精度基本一致.为进一步提高预测精度,采用Adam算法对BP神经网络进行优化,采用遗传算法对SVM预测模型的参数进行优化,最终得到最优预测模型的均值绝对百分比误差MAPE以及拟合优度R2分别为13.4%和0.953,可以为实际生产提供技术指导.  相似文献   

19.
岩爆类型预测是防治和控制硬岩矿山岩爆灾害的有效方式。基于国内外397组岩爆案例数据,规范训练集与测试集的数据预处理方式,采用模型参数优化及交叉验证技术获得最近邻、支持向量机与决策树模型最佳参数;对比分析主成分分析法(PCA)与过采样SMOTE对3种机器学习算法预测准确率的影响,并采用准确率、精确率、召回率、F1等指标对模型预测性能进行评估。结果表明:主成分分析对3种机器学习模型的预测准确率并无提升,不同岩爆类型的样本之间不具有较为明显的决策边界;过采样SMOTE算法仅对决策树模型有明显的提升,基于过采样建立的SMOTE-DT模型预测准确率为77.50%,高于仅对原始数据集进行标准化处理的KNN、SVM模型的68.75%与57.50%;SMOTE-DT在高估与低估岩爆类型表现优于KNN与SVM模型,对于四种岩爆类型的F1值均大于0.7,岩爆预测性能稳定可靠。此外,采用本文构建的3种机器学习模型对山西紫金金矿进行了岩爆类型预测,模型预测结果与现场观测结果相一致。本文构建的三种用于岩爆类型预测的机器学习模型避免了训练集信息泄露对测试集造成影响,研究结果为岩爆类型预测及规范机器学习模型训练过程提供了理论支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号