首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 851 毫秒
1.
模式生物的外显子、内含子和基因间序列的识别   总被引:1,自引:0,他引:1  
基于核酸序列在剪切位点上保守性、组分的不同和编码序列阅读框架的3周期性,模式生物全基因组序列分为外显子、内含子和基因间序列三类.三个标准离散源分别由64个三联体在整条序列上的概率和4个碱基序列首尾(剪切位点附近)共30个位点上的概率共同构成.某条序列的类型就由该序列的离散量同相应区间上三个标准离散量的离散增量确定.结果表明:具有184个信号参数的离散量预测比只有64个三联体参数的结果要高出5%,总体预测成功率:线虫为87.37%,拟南芥为91.08%,果蝇为92.28%,原核生物大肠杆菌的二种序列预测率为92.88%,酵母菌为94.88%.  相似文献   

2.
将拟南芥(A.tha liana)和线虫(C.eleg ans)的基因序列中的外显子按第一外显子,中间外显子和最后外显子划分成三类.分别将外显子/内含子剪切位点、翻译起始和终止位点附近的三联体的3个位点作为3条子链,以各条子链的不同碱基个数作为离散源参数,共12个离散源参数,计算各类外显子离散量.用离散增量实现了对三种序列类型的预测,预测成功率都达到80%以上;并且统计了剪切位点附近的碱基相对频数,结果比较了由于三联体所取位置及个数不同而造成的对预测结果的差异,说明了剪切位点附近碱基的保守性.  相似文献   

3.
基于序列信息理论预测线虫基因选择性剪切位点   总被引:2,自引:2,他引:0  
基因的选择性剪切使得在DNA上一段相同的序列翻译成多个不同的蛋白质序列.选择性剪切的出现把剪切位点分为选择性供体位点、组成性供体位点、选择性受体位点和组成性受体位点.基于EBI中的线虫基因选择性剪切位点数据库,选取不同位点的单碱基频率和序列片段的三联体频数作为参数,利用位置权重矩阵和离散增量结合支持向量机,对选择性剪切位点进行了理论预测.对选择性供体位点和选择性受体位点的预测成功率分别为63.78%和72.63%,特异性分别为68.02%和83.96%.  相似文献   

4.
将拟南芥基因组全序列,按内含子、外显子及基因间序列区分为三类.在统计分析的基础上,选取21种三联体的概率,作为信号参数,并以这些参数分别构建内含子、外显子和基因间序列的离散源,计算了离散量.某区间上任意一段序列的类型是由其离散量D(X)与同一区间上的三个标准离散量D(Xe)、D(Xi)和D(Xs)之间的离散增量的最小值决定的.由此实现了用离散量对三种核苷酸序列类型的预测,预测结果表明:标准集准确率达到84.26%,检验集达到84.64%.  相似文献   

5.
根据最近的SCOP库,依据2616个蛋白质结构域折叠类型的分类和PDB库中这些蛋白质的主二级结构序列,计算了这些蛋白质中α螺旋、β折叠和βαβ片段单元的数目,并以此为主要参数构成信息离散源,用离散量方法预测了这些蛋白结构域的折叠类型.结果表明,运用各种不同标准集和检验集,得到α类、β类、α/β类和α β类蛋白质结构域的预测成功率均在99%,92%,89%和87%以上.对标准集总的平均预测成功率为93.82%,对检验集总的平均预测成功率为94.35%.  相似文献   

6.
把基因组中的内含子、外显子和基因间序列分为三类序列,从这些序列中取64种三核苷的重复出现次数作为离散源的状态参数,计算三类序列的标准离散量,比较待测序列的离散量与三个标准离散量之间的离散增量值,由离散增量的最小值决定待测序列属于哪一类.本文用离散增量方法对线虫和酵母序列进行预测,结果表明,对酵母内含子预测的敏感性为81.5%,对外显子预测的敏感性为88.5%、特异性为99.6%,对基因间序列预测的敏感性为65.4%、特异性为87.5%;若以在相同长度区间的序列为标准离散源,预测相应长度区间的序列,对线虫内含子的预测的敏感性为82.2%、特异性为94.2%,对外显子预测的敏感性为91.1%、特异性为97.5%,对基因间序列预测的敏感性为78.8%。  相似文献   

7.
一种预测蛋白质结构型的新方法   总被引:2,自引:0,他引:2  
基于蛋白质的结构类型决定于它的二级结构序列的概念 ,将蛋白质的二级结构含量和二级结构序列参数 Nα,Nβ,Nβαβ结合起来构成离散源 ,分别计算四种结构类型的标准离散量 D( Xα) ,D( Xβ) ,D( Xα/β) ,D( Xα β) ,利用离散增量的概念 ,蛋白质的结构类型是由这个蛋白质的离散量 D( X)与四个标准离散量之间离散增量的最小值所决定的 .因此 ,对标准集中 35 9个蛋白的结构型进行检测并对检验集中 1 1 7个蛋白质进行结构预测 ,标准集的准确率为 87% ,检验集的预测准确率为 88%  相似文献   

8.
用离散量预测原核生物蛋白质的亚细胞位置   总被引:5,自引:2,他引:5  
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键.  相似文献   

9.
用离散量方法预测细胞凋亡蛋白的亚细胞位置   总被引:2,自引:0,他引:2  
细胞凋亡蛋白的亚细胞位置与它的功能紧密相联.基于一个凋亡蛋白的亚细胞位置主要决定于它的氨基酸序列这一观点,提出了一种新的预测凋亡蛋白亚细胞位置的算法——离散量方法.计算了蛋白质一级序列中紧邻残基对的出现个数,作为离散源中的参数,利用离散增量极小化对四类凋亡蛋白进行定位预测.采用Zhou和Doctor使用的数据库,通过Re-sub-stitution检验和Jack-knife检验方法,离散量方法比他们使用的协变判别式算法总体预测成功率分别高1.0%和12.2%;采用我们自己整理的扩大以后的数据库,通过Re-substitution检验和Jack-knife检验方法,总体预测成功率分别为88.1%和78.1%.  相似文献   

10.
基于离散增量和协变判别函数识别蛋白质亚核定位   总被引:1,自引:0,他引:1  
利用离散增量结合协变判别函数,选取氨基酸组份和N端氨基酸二肽组份为信息参数,对蛋白质亚核定位进行预测.在序列相似性小于等于25%时,406个单定位亚核蛋白Jackknife检验总预测成功率为75.9%,相关系数CC为0.644,把多定位亚核蛋白作为独立测试集,92个多定位亚核蛋白总预测成功率为78.3%.在序列相似性小于等于65%时,504个单定位亚核蛋白Jackknife检验总预测成功率为75.6%,相关系数CC为0.643,92个多定位亚核蛋白总预测成功率为80.4%.与 Lei等人利用Lei-SVM方法对该数据库预测结果相比,单定位亚核蛋白总预测成功率比Lei等人高9.1%,CC值比Lei等人高0.124,多定位亚核蛋白总预测成功率比Lei等人高15.2%.  相似文献   

11.
12.
为降低基因剪接位点识别算法复杂度和计算量,根据剪接位点上下游序列的保守特性及碱基组成随位点邻近序列GC含量变化等统计特征,建立Takagi-Sugeno模糊模型.通过模型输出值和阈值比较,判断真实的剪接位点.基于模糊似然函数的模糊聚类算法确定模型结构和前件参数,并结合最小二乘法完成该模型后件参数的识别.仿真结果表明,该算法简单,可使模糊模型的结构辨识和参数辨识同时完成,从而实现模糊模型的快速识别;能够很好地提取剪接位点附近保守序列的统计特征,为剪接位点的识别提供一种新的方法.  相似文献   

13.
基于知识编码的剪切位点预测   总被引:1,自引:0,他引:1  
在现有生物统计中,对脱氧核糖核酸中碱基的编码表达主要限于腺嘌呤,鸟嘌呤,胞嘧啶和胸腺嘧啶4种.但这种编码方式的变量太少,同时没有考虑碱基在脱氧核糖核酸中的位置信息,在剪切位点预测中,准确率不会超过90%.据此采用基于知识的编码方式,即真剪切位点与假剪切位点的统计差表,结合支持向量机方法,大大提高了剪切位点识别的准确率,并进一步采用碱基的统计特征的多变量编码方式使真给体位点和假给体位点的预报率分别达到96.4%和93.0%,真受体位点和假受体位点的预报率分别达到94.4%和93.0%.  相似文献   

14.
DNA splice site sequences clustering method for conservativeness analysis   总被引:1,自引:0,他引:1  
DNA sequences that are near to splice sites have remarkable conservativeness, and many researchers have contributed to the prediction of splice site. In order to mine the underlying biological knowledge, we analyze the conservativeness of DNA splice site adjacent sequences by clustering. Firstly, we propose a kind of DNA splice site sequences clustering method which is based on DBSCAN, and use four kinds of dissimilarity calculating methods. Then, we analyze the conservative feature of the clustering results and the experimental data set.  相似文献   

15.
为提高剪接位点识别的精度,提出一种基于综合信息的剪接位点识别方法.通过分析供体位点与受体位点的剪接信号、剪接序列、位点附近序列的二级结构,以及剪接因子作用过程等特征,分别为供体位点与受体位点建立信号模型和序列模型;应用Vienna软件中的Mfold包预测每个剪接位点附近序列最稳定的二级结构,将传统的四字符核酸表转化为八字符核酸表,每个序列用八字符进行描述,用结合了结构信息的序列对信号模型和序列模型进行训练学习;最后用训练好的模型进行剪接位点的识别.实验结果证明:该方法对剪接位点的识别取得了很好的效果,其识别精度可达95%以上.  相似文献   

16.
为探求吴茱萸超微饮片的品种鉴别方法,以来自不同产地的5个吴茱萸样品、7个疏毛吴茱萸和3个石虎样品制成的超微饮片为实验材料,用分子克隆方法获得并测定其ITS序列。标记它们的ITS1,5.8s,ITS2的全长序列,构建了吴茱萸的ITS序列指纹图谱,得出吴茱萸超微饮片3个不同植物来源种内相似度在98%以上;吴茱萸和其变种疏毛吴茱萸及石虎之间的ITS序列有显著的差异,可达27%,而疏毛吴茱萸和石虎的序列差异较小,但是在两组序列的对比中,发现有8个特异位点,显示了这两个亲缘关系比较相近的药材的区别。以ITS序列测定与分析可作为吴茱萸超微饮片的品种鉴定和质量控制的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号