首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 265 毫秒
1.
真核生物的全基因组序列可分为三种:外显子、内含子和基因间序列.基于剪切位点附近序列的保守性,序列的组分特征和编码序列阅读框存在三周期性,三种序列的标准离散源由序列上64个三联体的概率和5′端与3′尾剪切位点附近(共30位点)上4个碱基的概率,共184个参数构成.某条序列的类型就可以由该序列的离散量与上面三个标准离散源的离散量之间的离散增量最小值决定.当标准离散源具有184个信息参数时预测率比64参数预测的成功率至少提高4.61%,前者的预测成功率依次如下:线虫88.37%,酵母菌90.72%,拟南芥91.08%,果蝇92.28%,大肠杆菌92.88%.对预测成功的和错误的两类序列进行比较,发现这些预测错误序列的184个参数值与其预测结果所属的那类序列本身的参数值十分类似.  相似文献   

2.
将拟南芥(A.tha liana)和线虫(C.eleg ans)的基因序列中的外显子按第一外显子,中间外显子和最后外显子划分成三类.分别将外显子/内含子剪切位点、翻译起始和终止位点附近的三联体的3个位点作为3条子链,以各条子链的不同碱基个数作为离散源参数,共12个离散源参数,计算各类外显子离散量.用离散增量实现了对三种序列类型的预测,预测成功率都达到80%以上;并且统计了剪切位点附近的碱基相对频数,结果比较了由于三联体所取位置及个数不同而造成的对预测结果的差异,说明了剪切位点附近碱基的保守性.  相似文献   

3.
将拟南芥基因组全序列,按内含子、外显子及基因间序列区分为三类.在统计分析的基础上,选取21种三联体的概率,作为信号参数,并以这些参数分别构建内含子、外显子和基因间序列的离散源,计算了离散量.某区间上任意一段序列的类型是由其离散量D(X)与同一区间上的三个标准离散量D(Xe)、D(Xi)和D(Xs)之间的离散增量的最小值决定的.由此实现了用离散量对三种核苷酸序列类型的预测,预测结果表明:标准集准确率达到84.26%,检验集达到84.64%.  相似文献   

4.
基于序列信息理论预测线虫基因选择性剪切位点   总被引:2,自引:2,他引:0  
基因的选择性剪切使得在DNA上一段相同的序列翻译成多个不同的蛋白质序列.选择性剪切的出现把剪切位点分为选择性供体位点、组成性供体位点、选择性受体位点和组成性受体位点.基于EBI中的线虫基因选择性剪切位点数据库,选取不同位点的单碱基频率和序列片段的三联体频数作为参数,利用位置权重矩阵和离散增量结合支持向量机,对选择性剪切位点进行了理论预测.对选择性供体位点和选择性受体位点的预测成功率分别为63.78%和72.63%,特异性分别为68.02%和83.96%.  相似文献   

5.
把基因组中的内含子、外显子和基因间序列分为三类序列,从这些序列中取64种三核苷的重复出现次数作为离散源的状态参数,计算三类序列的标准离散量,比较待测序列的离散量与三个标准离散量之间的离散增量值,由离散增量的最小值决定待测序列属于哪一类.本文用离散增量方法对线虫和酵母序列进行预测,结果表明,对酵母内含子预测的敏感性为81.5%,对外显子预测的敏感性为88.5%、特异性为99.6%,对基因间序列预测的敏感性为65.4%、特异性为87.5%;若以在相同长度区间的序列为标准离散源,预测相应长度区间的序列,对线虫内含子的预测的敏感性为82.2%、特异性为94.2%,对外显子预测的敏感性为91.1%、特异性为97.5%,对基因间序列预测的敏感性为78.8%。  相似文献   

6.
一种预测蛋白质结构型的新方法   总被引:2,自引:0,他引:2  
基于蛋白质的结构类型决定于它的二级结构序列的概念 ,将蛋白质的二级结构含量和二级结构序列参数 Nα,Nβ,Nβαβ结合起来构成离散源 ,分别计算四种结构类型的标准离散量 D( Xα) ,D( Xβ) ,D( Xα/β) ,D( Xα β) ,利用离散增量的概念 ,蛋白质的结构类型是由这个蛋白质的离散量 D( X)与四个标准离散量之间离散增量的最小值所决定的 .因此 ,对标准集中 35 9个蛋白的结构型进行检测并对检验集中 1 1 7个蛋白质进行结构预测 ,标准集的准确率为 87% ,检验集的预测准确率为 88%  相似文献   

7.
对实验证实的683条大肠杆菌sigma70启动子的序列进行保守性计算分析,获得四个保守的区域:-10区域是启动子最保守的功能元件,-35区域、转录起始位点附近及启动子上游UP单元.从保守区中选取M 6(1)值较大的10个保守位点的六联体频数作为参数、引入伪计数构建位置权重矩阵,利用位置关联打分函数对683条sigma70启动子进行预测.负集分别从编码区和非编码区选取700条序列进行算法检验,获得很好的结果,敏感性分别为91%和90%.进而利用位置关联打分函数对大肠杆菌整条序列进行搜索,获得1567条预测序列.这些序列可能是实验未测定的启动子序列.  相似文献   

8.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

9.
用离散量预测原核生物蛋白质的亚细胞位置   总被引:5,自引:2,他引:5  
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键.  相似文献   

10.
由蛋白质序列预测蛋白质功能位点对于理解蛋白质功能具有重大的意义,它同时也为生物学实验提供了重要依据.长期以来,基于知识库的方法一直是预测蛋白质功能位点的可靠方法.通过适当修改蛋白质结构分类库SCOP构建了一个附带功能注释的结构域模版库(fDPD),其中每个模版都包含一组序列和结构都非常相近的已知的蛋白质成员.fDPD通过隐马尔可夫模型方法HMMER由未知蛋白质的序列预测其功能位点.为了考察本方法的效果我们检测了两个通用的酶催化位点数据库,一个由约1 500个序列构成的钙离子结合蛋白数据库和从CASP9中提取出的数条蛋白质序列.我们的方法对于配体结合位点以及钙结合位点的预测取得了较高的精度和覆盖率,其催化位点的预测效果仅次于目前已知的最好的方法.我们的计算结果表明,结构上相似的蛋白质其功能位点倾向于出现在蛋白质表面上相似的位置.  相似文献   

11.
It is of significance for splice site prediction to develop novel algorithms that combine the sequence patterns of regulatory elements such as enhancers and silencers with the patterns of splicing signals. In this paper, a statistical model of splicing signals was built based on the entropy density profile (EDP) method, weight array method (WAM) and K test; moreover, the model of splicing regulatory elements was developed by an unsupervised self-learning method to detect motifs associated with regulatory elements. With two models incorporated, a multi-level support vector machine (SVM) system was devised to perform ab initio prediction for splice sites originating from DNA sequence in eukaryotic genome. Results of large scale tests on human genomic splice sites show that the new method achieves a comparative high performance in splice site prediction. The method is demonstrated to be with at least the same level of performance and usually better performance than the existing SpliceScan method based on modeling regulatory elements, and shown to have higher accuracies than the traditional methods with modeling splicing signals such as the GeneSplicer. In particular, the method has evident advantage over splice site prediction for the genes with lower GC content.  相似文献   

12.
基于知识编码的剪切位点预测   总被引:1,自引:0,他引:1  
在现有生物统计中,对脱氧核糖核酸中碱基的编码表达主要限于腺嘌呤,鸟嘌呤,胞嘧啶和胸腺嘧啶4种.但这种编码方式的变量太少,同时没有考虑碱基在脱氧核糖核酸中的位置信息,在剪切位点预测中,准确率不会超过90%.据此采用基于知识的编码方式,即真剪切位点与假剪切位点的统计差表,结合支持向量机方法,大大提高了剪切位点识别的准确率,并进一步采用碱基的统计特征的多变量编码方式使真给体位点和假给体位点的预报率分别达到96.4%和93.0%,真受体位点和假受体位点的预报率分别达到94.4%和93.0%.  相似文献   

13.
鹿角菜18S rDNA序列分析及其系统发生分析   总被引:1,自引:0,他引:1  
通过制备鹿角菜DNA,PCR扩增得到鹿角菜18S rDNA序列.测序拼接后全长1733 bp,碱基A、T、C、G含量分别为25.45%、26.72%、26.72%、21.12%,序列已提交Gene Bank登录号为GQ433994.该序列与NCBI数据库中其他褐藻18S rDNA序列比对后,得到可变碱基位点184个,简约信息位点161个,单碱基变化位点23个.转换碱基值Si为44,颠换碱基值Sv为30,转换颠换比值R约为1.5.NJ法构建的系统发生树显示18S rDNA在褐藻门中具有保守性,可用于辅助传统分类.PLACE数据库预测发现在鹿角菜18S rDNA保守区有多个与水分胁迫、光诱导、Ca2+信号传导等相关转录元件,这表明18S rDNA可能参与细胞重要调控途径.  相似文献   

14.
研究剪接位点可以更深入地探索剪接机制和基因预测方法,准确预测剪接位点至关重要。基于深度学习技术提出一种新的预测方法,无需人工提取样本特征,以基因序列的K-MER编码向量作为输入,采用训练后的卷积神经网络(CNN)模型进行预测。基于人类基因HS3D供体数据集,与传统机器学习方法进行预测比较,结果表明预测模型的主要性能指标,包含马修斯相关系数(MCC)、灵敏度(SN)均超过传统的机器学习方法。  相似文献   

15.
16.
老鼠和人类基因组的同源性超过90%,老鼠基因组的研究为人类基因组序列研究提供了参考数据.统计分析了老鼠盒式外显子和内含子保留型剪接位点附近的序列保守性特征,并据此分别利用基于多样性指标的支持向量机和二次判别法对老鼠基因组中这两种剪接类型的供体端和受体端可变剪接位点进行了预测.独立检验结果表明,盒式外显子和内含子保留型的供体端和受体端可变剪接位点的预测均能达到较高的识别精度.  相似文献   

17.
人类剪接位点的识别是当前研究的一个重要课题.根据人类剪接位点附近区域的保守性,以位置关联权重矩阵及DNA结构信息作为特征输入参数,应用支持向量机(SVM)对人类基因组中的供体端和受体端剪接位点做了预测.对于供体端,5-fold交叉检验总体预测精度为92.55%,3-way data split检验总体预测精度为92.25%;受体端5-fold交叉检验总体预测精度为90.70%,3-way data split检验总体预测精度为89.87%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号