首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
根据GenBank的序列数据,构建了真核生物内含子数据库(EID).对EID统计规律的研究表明,数据库共有103 848个基因,478 484个内含子,582 332个外显子,平均每个基因有4.61个内含子,5.61个外显子,内含子长度为40~120个核苷酸的最多.对人、大鼠、小鼠、鸡、果蝇、线虫、拟南芥、玉米和裂殖酵母等9种模式生物的数据的统计分析表明,在真核生物中,并不是生物越高等,基因中的内含子数或外显子数就越大.进一步,对各种模式生物的基因组大小与内含子比例及内含子密度的关系、内含子相位、内含子剪接位点等特征进行了统计研究.  相似文献   

2.
基于GenBank构建的外显子内含子数据库(EID)含有大量的冗余数据.为了解决冗余问题,构建了基于RefSeq的非冗余EID(non-redundant EID).RefSeq是由NCBI staff负责维护和更新的参考序列库,为基因组注释、基因识别、基因突变、多态性分析、表达研究和比对分析提供了一个稳定的参考.该EID可用于大规模分析Exon/Intron结构和内含子剪切(Splicing)的研究,并拥有一些内部机制来控制数据质量和可能出现的错误.同时,它的新的改进是增加了基因序列中非翻译区(UTR)的数据内容.该文对构建基于RefSeq的非冗余EID的一些技巧作出说明.  相似文献   

3.
以Homo.sapiensRefSeq作为原始数据库来构建EID(Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2 870 827355 bps)中含有32 157个基因标识符(gene blocks),其中7 398个基因为假基因,4 014个基因发生了可变剪切(Al-ternative Splicing,AS),15 533个基因含有CDS内含子,765个基因含有UTR内含子,2 585个基因不含有内含子,其他的为异常基因.  相似文献   

4.
由NCBI建立和维护的大型公用数据库GenBank是进行生物学研究最为重要的工具之一. 其DNA序列数据库的每条记录描述了相关基因的详细特征,其中的CDS(Coding Sequence)特征域被认为是DNA生成蛋白质的翻译指令,它对GenBank中每条基因的组装进行了详细的说明. 通过CDS可以很容易在互联网上进行多序列搜索,并获得相关的基因序列、编码蛋白序列及种属特异性信息. 利用CDS特征域构建外显子-内含子数据库(Exon-Intron Database,EID)是研究内含子起源、进化和功能的重要手段,本文试图以CDS为线索,解决建库初期从GenBank海量数据中提取相关序列的问题.  相似文献   

5.
基于CDS..join特征域的Exon/Intron数据库的构建   总被引:1,自引:1,他引:0  
基因进化的研究和重构通常是在序列水平上进行的,包括比对它们的遗传序列或蛋白序列。而对基因外显子/内含子结构的分析能够提供更多有价值的信息,比如绘制更为可靠的系统发生图谱,或更精确地阐明内含子的进化。为此,本文设计了相应的Perl脚本程序来提取、比较和搜索基因说明文档中CDS..join特征域的Exon/Intron结构。通过该方法,可构建相关物种的Exon/Intron数据库(EID),其主要内容包括内含子的相位,Exon或Intron的数量、大小,剪接位点的模式以及选择性剪接(Alternative splicing, AS)的相关信息。  相似文献   

6.
内含子序列通过与相应mRNA序列的匹配参与基因表达调控。采用Smith-Waterman局部比对方法,以拟南芥全基因组基因序列为基础,获得了内含子序列与其对应的外显子连接序列的最佳匹配片段。为了揭示两者之间的序列匹配特征,给出匹配频率在外显子序列上的分布。研究发现,匹配频率分布在外显子的边界存在显著差异,长内含子序列和第一个内含子序列对外显子连接序列的分布偏好明显区别于其他内含子序列。对于长片段、低GC含量以及高配对率的最佳匹配片段在外显子连接序列上游EJC(exon-exon junction complex)结合区域分布有明显的最小值。结果显示内含子序列和编码序列存在共同进化关系。  相似文献   

7.
绵羊和山羊抑肌素基因的基因组结构和序列分析   总被引:7,自引:0,他引:7  
提取文登奶山羊和多赛特绵羊的基因组DNA,依据绵羊、奶牛、猪的抑肌素基因外显子区序列同源性设计并合成PCR引物进行扩增,将所获得的DNA片段克隆进行序列测定.绵羊和山羊内含子I的序列同源性为98.2%,内含子II的序列同源性为98%.内含子II中的重复序列明显多于内含子I.DNA序列的聚类分析结果与生物进化过程吻合,说明内含子II的复杂程度高于内含子I,且进化保守性很强.所测定的序列已在GenBank登录.  相似文献   

8.
介绍利用常见的x86 PC,Linux操作系统配合BLAST、PHYLIB和EMBOSS等常见的生物分析软件构建可以完成多种蛋白数据分析的大规模自动分析系统.该系统可自动完成从DNA序列中获取读码框、核酸序列向蛋白序列的转化、在蛋白序列数据库中查找同源序列、序列录入数据库以及蛋白序列的等电点、亲/疏水位点、二级结构等性质的分析、多个序列之间相似度和进化地位的分析,并对输出的结果数据利用Web服务器进行发布.与传统的序列分析模式相比,此分析系统大大加速了对大规模数据信息的分析和利用.  相似文献   

9.
对于最初给定的随机种子,随机函数都会生成一个相同的数列.数据库数据随机加密,是一种利用随机函数的随机数序列与数据库数据进行异或等运算、实现数据库数据加密的方法.对数据库数据随机加密算法进行研究和探讨,实现了在sql数据库中数据随机加密、解密的应用.  相似文献   

10.
空间数据库是目前地理信息系统应用的重要支撑部分.洪水灾害数据存在数据量大、种类多、保密强等特点,所以洪水灾害信息数据库的设计也不完全等同于其他空间数据库的设计.结合实际工作,对洪水灾害信息数据库建设中ArcSDE和SQL Server2000的配置,以及用户安全管理、数据入库参数(分块大小、金字塔技术、压缩方式)等技术方法进行了探讨.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号