首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
将拟南芥基因组全序列,按内含子、外显子及基因间序列区分为三类.在统计分析的基础上,选取21种三联体的概率,作为信号参数,并以这些参数分别构建内含子、外显子和基因间序列的离散源,计算了离散量.某区间上任意一段序列的类型是由其离散量D(X)与同一区间上的三个标准离散量D(Xe)、D(Xi)和D(Xs)之间的离散增量的最小值决定的.由此实现了用离散量对三种核苷酸序列类型的预测,预测结果表明:标准集准确率达到84.26%,检验集达到84.64%.  相似文献   

2.
模式生物的外显子、内含子和基因间序列的识别   总被引:1,自引:0,他引:1  
基于核酸序列在剪切位点上保守性、组分的不同和编码序列阅读框架的3周期性,模式生物全基因组序列分为外显子、内含子和基因间序列三类.三个标准离散源分别由64个三联体在整条序列上的概率和4个碱基序列首尾(剪切位点附近)共30个位点上的概率共同构成.某条序列的类型就由该序列的离散量同相应区间上三个标准离散量的离散增量确定.结果表明:具有184个信号参数的离散量预测比只有64个三联体参数的结果要高出5%,总体预测成功率:线虫为87.37%,拟南芥为91.08%,果蝇为92.28%,原核生物大肠杆菌的二种序列预测率为92.88%,酵母菌为94.88%.  相似文献   

3.
将拟南芥(A.tha liana)和线虫(C.eleg ans)的基因序列中的外显子按第一外显子,中间外显子和最后外显子划分成三类.分别将外显子/内含子剪切位点、翻译起始和终止位点附近的三联体的3个位点作为3条子链,以各条子链的不同碱基个数作为离散源参数,共12个离散源参数,计算各类外显子离散量.用离散增量实现了对三种序列类型的预测,预测成功率都达到80%以上;并且统计了剪切位点附近的碱基相对频数,结果比较了由于三联体所取位置及个数不同而造成的对预测结果的差异,说明了剪切位点附近碱基的保守性.  相似文献   

4.
真核生物的全基因组序列可分为三种:外显子、内含子和基因间序列.基于剪切位点附近序列的保守性,序列的组分特征和编码序列阅读框存在三周期性,三种序列的标准离散源由序列上64个三联体的概率和5′端与3′尾剪切位点附近(共30位点)上4个碱基的概率,共184个参数构成.某条序列的类型就可以由该序列的离散量与上面三个标准离散源的离散量之间的离散增量最小值决定.当标准离散源具有184个信息参数时预测率比64参数预测的成功率至少提高4.61%,前者的预测成功率依次如下:线虫88.37%,酵母菌90.72%,拟南芥91.08%,果蝇92.28%,大肠杆菌92.88%.对预测成功的和错误的两类序列进行比较,发现这些预测错误序列的184个参数值与其预测结果所属的那类序列本身的参数值十分类似.  相似文献   

5.
用离散量预测原核生物蛋白质的亚细胞位置   总被引:5,自引:2,他引:5  
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键.  相似文献   

6.
用离散量方法预测细胞凋亡蛋白的亚细胞位置   总被引:2,自引:0,他引:2  
细胞凋亡蛋白的亚细胞位置与它的功能紧密相联.基于一个凋亡蛋白的亚细胞位置主要决定于它的氨基酸序列这一观点,提出了一种新的预测凋亡蛋白亚细胞位置的算法——离散量方法.计算了蛋白质一级序列中紧邻残基对的出现个数,作为离散源中的参数,利用离散增量极小化对四类凋亡蛋白进行定位预测.采用Zhou和Doctor使用的数据库,通过Re-sub-stitution检验和Jack-knife检验方法,离散量方法比他们使用的协变判别式算法总体预测成功率分别高1.0%和12.2%;采用我们自己整理的扩大以后的数据库,通过Re-substitution检验和Jack-knife检验方法,总体预测成功率分别为88.1%和78.1%.  相似文献   

7.
MicroRNAs(miRNAs)是一类约为21-26个碱基长度的非编码单链RNA.根据MicroRNAs前体序列(pre-miRNAs)的碱基保守特征和二级结构特征,应用多样性增量方法(ID方法)和支持向量机(SVM)分析,以内含子区(intron)、外显子区(exon)、基因间区(intergenic)三类序列分别作为负集,对人类的pre-miRNAs进行分析和预测.当以intergenic区和intron区序列为训练负集时,其以二级结构三联体、四联体和五联体(3-mer、4-mer、5-mer)为特征参量的敏感性、特异性、整体精度都在89%以上,相关系数在0.7以上.  相似文献   

8.
运用序列对比分析的方法对酵母螺旋酶(Y′helicase protein,YRF)家族基因和类YRF基因的开放阅读框(Open Reading Frame,ORF)进行了比较,比较中考虑了启动区所在序列.纠正了已公布酵母基因组中可能存在的错误,给出了新预测的基因位置.提出了酵母螺旋酶基因进化的过程,并对内含子的进化进行了初步探讨,结论支持内含子早论.  相似文献   

9.
黑线仓鼠MHCⅡ类DQA基因外显子2的克隆与序列分析   总被引:1,自引:0,他引:1  
为了探明黑线仓鼠MHC的结构与功能并寻找分子标记,对MHCⅡ类DQA基因的外显子2进行克隆和序列分析.提取黑线仓鼠3个群体(吴村、沂南和临朐)的基因组DNA构建基因池,利用PCR技术扩增得到249bp的片段,将该目的片段连接到pMD18-T载体中,重组质粒转入大肠杆菌DH5α后利用蓝白斑法筛选阳性克隆,测序后得到该目的片段的核苷酸序列(Genbank登录号:FJ209306)并推导出氨基酸序列.结果表明:黑线仓鼠、人类、大鼠、小鼠、猪、马、牛、兔之间DQA基因外显子2的核苷酸序列同源性为68.7%-85%,氨基酸序列同源性为56.8%-83.5%,黑线仓鼠与大鼠、小鼠亲缘关系更近.测序得到的OQA基因外显子2的序列在物种间具有丰富的多态性,可以作为物种遗传分析的分子标记.  相似文献   

10.
酵母全基因组新的ORF结构的预测   总被引:9,自引:6,他引:3  
提出了一个预测DNA序列中无内含子的开阅读框架(ORF)的理论方法-终止密码预测法;用酵母全基因组中已知的6260个基因进行检验,预测成功率为99.9%;发现酵母基因编码区和已知的DRF的起始密码子总是位于长距离不出现终止密码的位置序列上游紧邻最后一个终止密码子的ATG;在酵母全基因组DNA中发现了新的长度不小于90个氨基酸的ORF结构2244个。  相似文献   

11.
DNA序列在植物系统进化研究中的应用   总被引:4,自引:0,他引:4  
DNA序列分析已广泛应用于植物系统与进化学研究,根据不同的研究对象和问题选择相对应的DNA序列来进行研究显得十分重要。目前在植物系统与进化学中主要一些DNA的应用,主要是讨论叶绿体基因组(rbcL等)和核基因组(18S,ITS)中的特定DNA序列区段。研究表明,18S,rbcL等编码基因一般适用于较高分类阶元甚至整个种子植物谱系间的系统发育的探讨,而ITS极cpDNA的非编码区序列等因其较快的进化速率多用于较低分类阶元的系统关系研究。  相似文献   

12.
根据革兰氏阴性菌蛋白不同亚细胞位置、其一级结构中氨基酸含量、氨基酸的关联性及亲疏水性的不同,利用最小离散增量的方法,分别以20个氨基酸组份、400个氨基酸二联体组份及氨基酸亲疏水性在蛋白质上的分布为参数构成离散源,对革兰氏阴性菌蛋白的5类亚细胞定位进行预测,分别用self—consistency方法和Jack-knife方法预测,均取得了较高的预测成功率.  相似文献   

13.
从公布的水稻两个亚种(籼稻9311和粳稻Nipponbare)基因组草图序列中,搜寻了所有的完整微卫星位点,发现单碱基重复中A/T重复占大多数,二碱基重复中AT/TA、GA/TC、AG/CT重复居多,三碱基中GGC/GCC、GCG/CGC、CCG/CGG重复较多。通过相互比较,不同基序和基因区域的微卫星多态性有较大差异:内含子和基因间区中微卫星的多态性较高(分别约为45%和40%),外显子中的微卫星多为三碱基重复,而且多态性较低(约为25%);两个亚种具多态性的微卫星间距平均约为12.7 kb和16.4 kb。  相似文献   

14.
Based on the concept of the pseudo amino acid composition(PseAAC),protein structural classes are predicted by using an approach of increment of diversity combined with support vector machine(ID-SVM),in which the dipeptide amino acid composition of proteins is used as the source of diversity.Jackknife test shows that total prediction accuracy is 96.6% and higher than that given by other approaches.Besides,the specificity(Sp) and the Matthew’s correlation coefficient(MCC) are also calculated for each protein structural class,the Sp is more than 88%,the MCC is higher than 92%,and the higher MCC and Sp imply that it is credible to use ID-SVM model predicting protein structural class.The results indicate that:① the choice of the source of diversity is reasonable,② the predictive performance of ID-SVM is excellent,and ③ the amino acid sequences of proteins contain information of protein structural classes.  相似文献   

15.
Gas vesicles provide buoyancy to Microcystis and other common cyanobacterial bloom-forming species. gvpA and gvpC are structural genes encoding gas vesicle proteins. Phylogenetic analyses of 10 Microcystis strains/uncultured samples showed that gvpC and each intergenic segment of the gvpA-gvpC region can be divided into two types. The combination of different types of gvpC and intergenic segments is an important factor that diversifies this genomic region. Some Microcystis strains isolated in China possess a 172 to 176 bp sequence tag in the intergenic segment between gvpA and gvpC. The gvpA-gvpC region in Microcystis can be divided into at least 4 classes and more numbers of subclasses. Compared to rbcLX and other regions, the high variability of the gvpA-gvpC region should be more useful in identifying geographical isolates or ecotypes of Microcystis.  相似文献   

16.
Identification of true EST alignments and exon regions of gene sequences   总被引:1,自引:0,他引:1  
Expressed sequence tags (ESTs), which have piled up considerably so far, provide a valuable resource for finding new genes, disease-relevant genes, and for recognizing alternative splicing variants, SNP sites, etc. The prerequisite for carrying out these researches is to correctly ascertain the gene-sequence-related ESTs. Based on analysis of the alignment results between some known gene sequences and ESTs in public database, several measures including Identity Check, Gap Check, Inclusion Check and Length Check have been introduced to judge whether an EST alignment is related to a gene sequence or not. A computational program EDSAcl.0 has been developed to identify true EST alignments and exon regions of query gene sequences. When tested with human gene sequences in the standard dataset HMR195 and evaluated with the standard measures of gene prediction performance, EDSAel.0 can identify proteincoding regions with specificity of 0.997 and sensitivity of 0.88 at the nucleotide level, which outperform that of the counterpart TAP. A web server of EDSAcl.0 is available at http://infosci.hust.edu.cn.  相似文献   

17.
Gas vesicles provide buoyancy to Microcystis and other common cyanobacterial bloom-forming species. gvpA and gvpC are structural genes encoding gas vesicle proteins. Phylogenetic analyses of 10 Microcystis strains/uncultured samples showed that gvpC and each intergenic segment of the gvpA-gvpC region can be divided into two types. The combination of different types of gvpC and intergenic segments is an important factor that diversifies this genomic region. Some Microcystis strains isolated in China possess a 172 to 176 bp sequence tag in the intergenic segment between gvpA and gvpC. The gvpA-gvpC region in Microcystis can be divided into at least 4 classes and more numbers of subclasses. Compared to rbcLX and other regions, the high variability of the gvpA-gvpC region should be more useful in identifying geographical isolates or ecotypes of Microcystis.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号