首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 281 毫秒
1.
为提高剪接位点识别的精度,提出一种基于综合信息的剪接位点识别方法.通过分析供体位点与受体位点的剪接信号、剪接序列、位点附近序列的二级结构,以及剪接因子作用过程等特征,分别为供体位点与受体位点建立信号模型和序列模型;应用Vienna软件中的Mfold包预测每个剪接位点附近序列最稳定的二级结构,将传统的四字符核酸表转化为八字符核酸表,每个序列用八字符进行描述,用结合了结构信息的序列对信号模型和序列模型进行训练学习;最后用训练好的模型进行剪接位点的识别.实验结果证明:该方法对剪接位点的识别取得了很好的效果,其识别精度可达95%以上.  相似文献   

2.
利用RNA二级结构的预测程序,通过对148个人类基因由EST验证的发生剪接的784个供体位点和受体位点以及101个人类基因由EST验证的发生选择性剪接的418个供体位点和受体位点附近的二级结构的预测,寻找真核基因剪接位点及选择性剪接位点的二级结构特征。通过详细研究剪接位点及选择性剪接位点在RNA二级结构中的结构分布,获得了一些剪接位点及选择性剪接位点在RNA二级结构中结构分布的规律性。结果表明,在RNA剪接及选择性剪接过程中,顺式作用元件具有结构特定性。这种结构特定性可以从结构上对真核基因剪接及选择性剪接机制进行一些合理的解释,有利于对真核基因剪接位点的识别及其表达调控机理的进一步理解。  相似文献   

3.
人类剪接位点的识别是当前研究的一个重要课题.根据人类剪接位点附近区域的保守性,以位置关联权重矩阵及DNA结构信息作为特征输入参数,应用支持向量机(SVM)对人类基因组中的供体端和受体端剪接位点做了预测.对于供体端,5-fold交叉检验总体预测精度为92.55%,3-way data split检验总体预测精度为92.25%;受体端5-fold交叉检验总体预测精度为90.70%,3-way data split检验总体预测精度为89.87%.  相似文献   

4.
为解决传统的基因识别算法主要关注编码区的整体特性,而并不着重考虑个别位点的信息,因此难以准确地识别出剪接位点的缺点,提出了基于条件随机场的剪接位点预测方法,条件随机场能够更好的处理标记数据之间的依赖关系,并且能够避免数据标记偏置的问题。实验结果表明基于条件随机场的剪接位点预测方法是一种合适的方法,能够取得更好的效果。  相似文献   

5.
研究剪接位点可以更深入地探索剪接机制和基因预测方法,准确预测剪接位点至关重要。基于深度学习技术提出一种新的预测方法,无需人工提取样本特征,以基因序列的K-MER编码向量作为输入,采用训练后的卷积神经网络(CNN)模型进行预测。基于人类基因HS3D供体数据集,与传统机器学习方法进行预测比较,结果表明预测模型的主要性能指标,包含马修斯相关系数(MCC)、灵敏度(SN)均超过传统的机器学习方法。  相似文献   

6.
隐Markov模型在剪接位点识别中的应用   总被引:6,自引:0,他引:6  
剪接位点的识别是基因识别中的一个重要环节。由于现有的基因识别算法主要关注编码区的整体特性 ,而并不着重考虑个别位点的信息 ,因此难以准确地识别出剪接位点。考虑到剪接位点附近的保守序列的相邻碱基之间应该存在某种相关性 ,利用一阶 Markov链建立了表述这种相关性的模型 ,在此基础之上 ,设计了专门用于剪接拉点识别的隐马氏模型 (HMM)方法。实验结果表明 ,用 HMM描述剪接位点附近序列符合实际情况 ,并且利用这一方法进行剪接位点的识别可以很好地提取位点附近保守序列在边缘分布与条件分布 (转移概率 )上的统计特征。使用该方法对真实剪接位点和虚假剪接位点进行识别 ,识别率均可达 90 %以上。  相似文献   

7.
人工神经网络和支持向量机在剪接位点识别上的应用   总被引:1,自引:0,他引:1  
杨艳 《科技资讯》2007,(22):215-216
将人工神经网络和支持向量机应用于剪接位点的识别中,并用标准测试数据集进行了5倍率交叉验证,测试结果显示人工神经网络和支持向量机对剪接位点的识别效果优于目前广泛使用的权阵列模型.  相似文献   

8.
挖掘剪接特征是剪接位点识别算法的基础,在频域空间挖掘对位点识别有帮助的特征至关重要.利用基于快速傅里叶变换的剪接特征提取方法对其进行特征提取,该方法能够将时域信息转化到频域中,以此来构建所需的频域特征,为了比较还构建了位置特征与统计特征. 实验结果表明将频域特征加入剪接位点识别中能够有效地提高识别精度,这也表明将信号处理方法应用于生物信息学领域是可行有效的.   相似文献   

9.
基于特征挖掘与融合的剪接位点识别   总被引:4,自引:1,他引:3  
在基于保守序列这一信号特征识别剪接位点的基础上.挖掘了可用于剪接位点识别的其他多个特征(包括剪接位点上、下游序列的碱基组成。剪接位点信号和上、下游序列的碱基组成随位点邻近序列C+G含量的变化等统计特征),建立了描述这些特征的模型。设计了能有效融合这些特征对剪接位点进行识别的对数线性模型,开发了剪接位点识别程序SpliceKey.测试结果表明:SpliceKey识别剪接位点的精度不仅较WAM方法有显著的提高,而且也优于国际上最新发布的剪接位点识别软件DGSplice.SpliceKey已提供网络服务:http://infosci.hust.edu.cn/SpliceKey/.  相似文献   

10.
老鼠和人类基因组的同源性超过90%,老鼠基因组的研究为人类基因组序列研究提供了参考数据.统计分析了老鼠盒式外显子和内含子保留型剪接位点附近的序列保守性特征,并据此分别利用基于多样性指标的支持向量机和二次判别法对老鼠基因组中这两种剪接类型的供体端和受体端可变剪接位点进行了预测.独立检验结果表明,盒式外显子和内含子保留型的供体端和受体端可变剪接位点的预测均能达到较高的识别精度.  相似文献   

11.
It is of significance for splice site prediction to develop novel algorithms that combine the sequence patterns of regulatory elements such as enhancers and silencers with the patterns of splicing signals. In this paper, a statistical model of splicing signals was built based on the entropy density profile (EDP) method, weight array method (WAM) and K test; moreover, the model of splicing regulatory elements was developed by an unsupervised self-learning method to detect motifs associated with regulatory elements. With two models incorporated, a multi-level support vector machine (SVM) system was devised to perform ab initio prediction for splice sites originating from DNA sequence in eukaryotic genome. Results of large scale tests on human genomic splice sites show that the new method achieves a comparative high performance in splice site prediction. The method is demonstrated to be with at least the same level of performance and usually better performance than the existing SpliceScan method based on modeling regulatory elements, and shown to have higher accuracies than the traditional methods with modeling splicing signals such as the GeneSplicer. In particular, the method has evident advantage over splice site prediction for the genes with lower GC content.  相似文献   

12.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

13.
真核生物的全基因组序列可分为三种:外显子、内含子和基因间序列.基于剪切位点附近序列的保守性,序列的组分特征和编码序列阅读框存在三周期性,三种序列的标准离散源由序列上64个三联体的概率和5′端与3′尾剪切位点附近(共30位点)上4个碱基的概率,共184个参数构成.某条序列的类型就可以由该序列的离散量与上面三个标准离散源的离散量之间的离散增量最小值决定.当标准离散源具有184个信息参数时预测率比64参数预测的成功率至少提高4.61%,前者的预测成功率依次如下:线虫88.37%,酵母菌90.72%,拟南芥91.08%,果蝇92.28%,大肠杆菌92.88%.对预测成功的和错误的两类序列进行比较,发现这些预测错误序列的184个参数值与其预测结果所属的那类序列本身的参数值十分类似.  相似文献   

14.
DNA splice site sequences clustering method for conservativeness analysis   总被引:1,自引:0,他引:1  
DNA sequences that are near to splice sites have remarkable conservativeness, and many researchers have contributed to the prediction of splice site. In order to mine the underlying biological knowledge, we analyze the conservativeness of DNA splice site adjacent sequences by clustering. Firstly, we propose a kind of DNA splice site sequences clustering method which is based on DBSCAN, and use four kinds of dissimilarity calculating methods. Then, we analyze the conservative feature of the clustering results and the experimental data set.  相似文献   

15.
为降低基因剪接位点识别算法复杂度和计算量,根据剪接位点上下游序列的保守特性及碱基组成随位点邻近序列GC含量变化等统计特征,建立Takagi-Sugeno模糊模型.通过模型输出值和阈值比较,判断真实的剪接位点.基于模糊似然函数的模糊聚类算法确定模型结构和前件参数,并结合最小二乘法完成该模型后件参数的识别.仿真结果表明,该算法简单,可使模糊模型的结构辨识和参数辨识同时完成,从而实现模糊模型的快速识别;能够很好地提取剪接位点附近保守序列的统计特征,为剪接位点的识别提供一种新的方法.  相似文献   

16.
通过分析铺层纤维取向和面内变形特点,提出纤维切断铺层拼接层合板的力学性能分析方法。按单层偏轴向力学性能转换关系,推导了不同纤维方向拼接层的等效工程弹性常数计算公式,并举例说明了含铺层拼接层合板的等效刚度计算方法。  相似文献   

17.
模式生物的外显子、内含子和基因间序列的识别   总被引:1,自引:0,他引:1  
基于核酸序列在剪切位点上保守性、组分的不同和编码序列阅读框架的3周期性,模式生物全基因组序列分为外显子、内含子和基因间序列三类.三个标准离散源分别由64个三联体在整条序列上的概率和4个碱基序列首尾(剪切位点附近)共30个位点上的概率共同构成.某条序列的类型就由该序列的离散量同相应区间上三个标准离散量的离散增量确定.结果表明:具有184个信号参数的离散量预测比只有64个三联体参数的结果要高出5%,总体预测成功率:线虫为87.37%,拟南芥为91.08%,果蝇为92.28%,原核生物大肠杆菌的二种序列预测率为92.88%,酵母菌为94.88%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号