首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王婷 《天津科技》2022,(4):52-55
基于酶的序列信息,分别使用矩阵打分与离散增量的方法提取各类特征参数进行有效组合,利用支持向量机分类算法对数据集中酶家族类的各个亚类进行分类识别,获得了最佳的预测结果。在刀切法(Jackknife)检验下,氧化还原酶、转移酶、水解酶、裂合酶、异构酶和合成酶中亚类的总体预测成功率分别为96.43%、92.90%、90.85%、99.22%、99.84%和98.86%。预测结果表明,多特征参数的支持向量机方法明显优于单特征参数的矩阵打分方法和离散增量方法,可以有效识别酶家族类中的亚类。  相似文献   

2.
用矩阵得分的方法,从蛋白质的氨基酸序列出发,以氨基酸紧邻关联为参量,分别对6 035个和4 884个β-hairpins模体进行识别.利用10-fold cross-validation检验,识别总精度分别达到85.4%和81.2%.  相似文献   

3.
摆脱目前常用的基于特征模体来识别超家族的方法,引入单个氨基酸的物理化学性质(亲疏水性质)及其在氨基酸序列中的分布特征参数(分段的方法),利用最小离散增量算法对属于同一结构类的不同超家族进行了识别,总预测成功率令人满意.选取了全α类、全β类、α β类、α/β类中的各4个超家族分别进行了识别.对全α类的4个超家族,se lf-cons istency检验和jack-kn ife检验可达83.0%,81.2%;对全β类的4个超家族,两种检验均为80.9%;对α β类的4个超家族,两种检验总成功率最高分别为88.6%,88.0%;识别α/β类的4个超家族时两种检验的结果分别为69.3%和67.6%.  相似文献   

4.
提出一种使用PSI—BLAST得到的位置特异性打分矩阵中蕴含的进化信息作为酶蛋白的特征表示,结合支持向量机方法对酶蛋白的亚家族类别进行预测的方法.对包含16类亚家族的2640条氧化还原酶数据集进行jacknife测试,总的预测精度达到92.12%,高于目前的任何其他预测方法.实验结果表明,进化信息是酶蛋白序列的有效表示,将其与支持向量机结合能够实现对酶蛋白亚家族的高精度预测.  相似文献   

5.
根据最近的SCOP库,依据2616个蛋白质结构域折叠类型的分类和PDB库中这些蛋白质的主二级结构序列,计算了这些蛋白质中α螺旋、β折叠和βαβ片段单元的数目,并以此为主要参数构成信息离散源,用离散量方法预测了这些蛋白结构域的折叠类型.结果表明,运用各种不同标准集和检验集,得到α类、β类、α/β类和α β类蛋白质结构域的预测成功率均在99%,92%,89%和87%以上.对标准集总的平均预测成功率为93.82%,对检验集总的平均预测成功率为94.35%.  相似文献   

6.
从酶的一级序列出发,以20种氨基酸和其紧邻与次邻的氨基酸二联体在序列中出现的个数为参数,用离散量算法对酶的亚类进行预测.通过用Self-consistency和Jack-knife两种检验方法检验时,均获得较好的预测精度.结果表明该方法新颖、简单、有效.  相似文献   

7.
以微泡菌(Microbulbifer sp.)ALW1的基因组为模板,利用几丁质酶基因的特异性引物进行PCR扩增,然后将产物插入到pMD18-T载体后进行DNA序列测定,并对目的基因编码的蛋白质序列进行信息学分析。结果显示,克隆的目的基因大小为1644 bp,预测编码含有547个氨基酸残基的蛋白质。该蛋白质序列与其他菌株来源的几丁质酶序列具有70%左右的相似性,表明预测目的基因编码几丁质酶。该蛋白质具有2个几丁质结合结构域和1个GH18家族酶的催化结构域,属于糖苷水解酶(glycoside hydrolase,GH)家族18,命名为几丁质酶Chi18A。模拟的三维结构显示,Chi18A含有(βα)_8桶状结构。  相似文献   

8.
从蛋白质的一级序列出发,用矩阵打分的方法对3088个蛋白质中的β发夹和非β发夹模体进行了识别.使用10-交叉检验,预测总精度为75.9%,Matthew相关系数为0.42.同时计算了不同loop长的模体对应的序列最佳固定模式长,并对有相同最佳固定模式长的模体序列进行了组合,组合后的模体预测总精度都高于76.1%,Matthew相关系数大于0.43.  相似文献   

9.
文章通过对氨基酸词频的分析,应用概率神经网络来自动地进行蛋白质亚细胞定位.对于真核生物蛋白质的预测精度达到了82%。对于原核生物的预测精度则达到了92%.而且对于蛋白质序列N端缺失的情况有很好的鲁棒性.  相似文献   

10.
克隆得到梅花鹿过氧化氢酶基因序列,已提交Genbank登录(HQ877674).基因编码区全长1 584 bp,编码527个氨基酸,理论计算分子量为60 027.4 Da,理论计算等电点为6.67,预测蛋白质结构中不含有二硫键,在蛋白质序列中,具有过氧化氢酶家族活性中心保守序列和过氧化氢酶家族亚铁血红素保守序列,其DNA序列和蛋白质序列均与Bos taurus来源过氧化氢酶的同源关系最为接近.使用pPICZαC质粒和毕赤酵母GS115菌株,成功异源表达该基因,对诱导表达的发酵上清液进行活性测定,酶活为463 U·mL-1.  相似文献   

11.
隐马尔可夫模型是最近几年在许多机器学习领域都得到成功应用的关于序列分析的重要统计模型,特别是在蛋白质家族的识别方面.这主要是由于生物数据的急剧增长导致2个领域(计算科学和生物学)走向结合引起的.探讨了多重序列比对和序列谱隐马尔可夫模型,讨论了隐马尔可夫模型的基本算法以及如何建立HMMs.根据E值和训练分数进行蛋白质家族的识别和分类.  相似文献   

12.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

13.
蛋白质与DNA的相互作用在细胞的转录调控和DNA修饰等活动中至关重要.将改进的共鸣识别模型应用于预测酵母蛋白质与DNA的相互作用,运用小波变换找出阳性数据和随机数据的信噪比分布的差异,并通过阈值的选取达到了较好的预测结果.同时,将阳性数据与相应复合物的序列进行序列联配,找到了保守位点,进而从结合位点的角度验证了本方法的正确性.  相似文献   

14.
采用伪氨基酸组成预测水解酶亚家族   总被引:1,自引:1,他引:0  
利用伪氨基酸组成提取蛋白序列特征值,考察参数λ和w对识别效果的影响,以k-近邻作为基础分类器,用于预测水解酶的亚家族类型.结果表明,伪氨基酸组成特征提取法与单纯的20个氨基酸组成特征方法相比,其识别精度有较大程度提高.20AA组成的平均预测精度为72.3%,而伪氨基酸组成特征提取的识别效果可达82.7%.在参数影响考察方面,自相关性函数个数的选取对识别效果影响较大,而权重因子w对识别效果影响则很小.  相似文献   

15.
统计分析了不同细胞器基因组转录的非编码RNAs(non-coding RNAs,ncRNAs)的kmer频数、约化后的碱基组分、结构-序列模式中三联体偏好.并以上述三种特征提取方法分别构成特征向量表示ncRNA序列,利用支持向量机,对四类细胞器基因组转录的ncRNAs的序列进行识别.分析两种不同的碱基约化方式发现,嘌呤/嘧啶约化(MN约化)更能反应不同细胞器基因组转录的ncRNAs的序列信息;考虑结构和碱基种类的结构-序列模式(stru-seq mode)中的三联体短片段(k=3),揭示出ncRNA与编码蛋白质的mRNA或蛋白质相互作用可能存在局域结构三联体偏好.在Jackknife检验下,预测总精度最高达到83.10%.采用不同参数的预测结果表明,结构-序列模式(stru-seq mode)中的短片段(k=3)结构有助于不同细胞器基因组转录的ncRNAs区别.  相似文献   

16.
为提高蛋白质二级结构预测的精度,提出了一个由5个子网络集成的多模神经网络模型,预测结果由5个子网络综合得到。对于每个子网络采用神经网络分级思想分为二级网络,一级网络采用含进化信息的profile编码蛋白质序列作为输入,二级结构作为输出。二级网络编码一级网络输出结果作为输入,并将蛋白质序列用改进正交编码方式作为另一输入来提高二级网络的预测精度,输出仍为二级结构。采用子网络差异方式进行单独训练,结果表明该方法最终的预测精度达到71.3%,较大提高了蛋白质二级结构的预测精度。  相似文献   

17.
DUF872家族是由一些未被具体描述的真核生物蛋白质构成,该家族的基因功能尚不清楚.本研究通过PCR方法从手掌参全长cDNA文库中筛选到了一个DUF872家族基因的全长cDNA,暂命名GcDUF872-1或Gc364.测序表明该序列长度为618 bp,推测编码103个氨基酸的蛋白质,序列比对表明它与拟南芥和水稻的DUF872家族基因蛋白质的相似程度达到85.92%.DUF872基因家族的进化分析表明Gc364与水稻、拟南芥的遗传关系最近,同属一个亚家族.半定量RT-PCR显示Gc364在植物组织中表达量较低,属于低丰度表达的基因,而且表达量受光处理而上调.生物信息学分析表明预测蛋白Gc364属于两次跨膜的蛋白质,可能是一个真正的编码蛋白,主要参与信号传递或能量的转换.  相似文献   

18.
针对肿瘤组织的异质性的子克隆解析,提出了一种通过多级子克隆的体细胞突变模式来识别单体型异质性的算法。该算法基于肿瘤组织的多文库测序数据提取文库特征和双末端读段约束,通过对体细胞突变位点的等位基因变异频率进行聚类估算出子克隆数目的一个先验;同时设计了一种拼接识别算法,通过遍历位点对应的读段来拼接单体型序列,拼接出的单体型序列的精度为碱基水平;采用后验概率的最大似然估计解出子克隆的个数、配比及演化关系。仿真实验表明,当基础文库满足一定测序覆盖度时,该算法对单体型异质性的识别精度可达到99%以上,能够取代目前数据分析中常用的两步法,且获得高精确的识别结果。  相似文献   

19.
蛋白质类泛素化修饰位点的准确识别对基础研究和药物开发都具有重要意义.该文提出了一种基于蛋白质序列特征的类泛素化修饰位点预测模型.该模型结合氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征,训练一种轻量型梯度提升机(Light gradient boosting machine,LightGBM)分类器预测某个蛋...  相似文献   

20.
蛋白质的二级结构序列和结构型   总被引:1,自引:0,他引:1  
从蛋白质的二级结构序列出发 ,提出了冗余的概念 ,定义了冗余数量和冗余长度 ,给出了不同结构型蛋白的冗余数量和长度的分布特性 .统计结果表明 α类蛋白中 30 %、β类蛋白中84 %、α/β类蛋白中 95 %的序列不同程度的存在冗余 ,冗余数量和冗余长度主要分布在 1~ 3的范围 .以主二级结构序列三联体为参数 ,利用信息聚类方法对 α类、β类、α/ β类、α β类的6 0 0个蛋白进行了聚类 ,结果表明 ,对冗余较少的α类蛋白 85 %以上能够较好地聚类在一枝中 ,但对于冗余较多的其它类蛋白不能分在一个大支中 ,大部分可以分散在多个小支中 .以主二级结构序列三联体为参数 ,利用 Mahalanobis距离方法对上述四种结构型进行预测 ,预测的总体准确率为 81 .1 % .聚类结果和利用 Mahalanobis距离分类结果充分展示了蛋白质二级结构序列对结构型的特殊作用 ,但由于冗余的影响使得二级结构序列的信息并未充分显示出来 .说明从蛋白质二级结构序列出发预测结构型和构建蛋白质框架结构是合理的选择  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号