排序方式: 共有16条查询结果,搜索用时 0 毫秒
1.
上皮-间充质转化(epithelial-mesenchymal transition, EMT)及其逆过程间充质-上皮转化(mesenchymal-epithelial transition, MET)是肿瘤转移的关键过程。以结直肠癌(colorectal cancer, CRC)转移期间在EMT和MET之间表达改变相反的基因为研究对象(即在EMT中下调然后在MET中上调的基因(ED-MU)和在EMT中上调然后在MET中下调的基因(EU-MD)),计算并比较了EMT-MET过程中组蛋白修饰水平和基因表达水平的变化,结果发现ED-MU基因启动子中的H3K79me3水平在EMT过程降低然后在MET过程升高。基于组蛋白修饰特征,使用随机森林对与EMT-MET相关的上下调基因进行了预测,结果发现H3K79me3的预测结果最好(AUC=0.974)。通过构建蛋白质相互作用网络确定了10个与转移相关的hub基因。最后,计算了hub基因启动子区组蛋白修饰水平的变化,结果... 相似文献
2.
凋亡蛋白质是一种有着特殊功能的蛋白质,在生物体的生长和维持体内平衡中扮演着重要的角色.在细胞凋亡过程中抗与促凋亡蛋白质对细胞凋亡的调控起着不同的作用.如果抗凋亡蛋白质或者促凋亡蛋白质失活,将导致癌症和其它疾病的发生,所以对抗凋亡蛋白质和促凋亡蛋白质的识别,将有助于更好的了解凋亡蛋白的致病机理.建立一个新的凋亡蛋白质数据集,并基于化学位移信息和伪氨基酸组分信息采用支持向量机(SVM)方法对新的数据集进行了预测.融合后的特征信息用Jackknife检验预测成功率达到77.01%,从预测结果可以看出提取有效的特征信息是提高预测成功率的重要因素. 相似文献
3.
基于支持向量机,以全部和局部氨基酸序列的n肽组分、序列的亲疏水性分布等五种特征提取方法构成特征向量表示蛋白质序列,对六类细胞凋亡蛋白的亚细胞位置进行预测.结果表明,基于氨基酸二肽组成成分构成的特征向量集(以符号DIPE表示)的预测结果高于其它四种特征向量集的预测结果,在Jackknife检验下,总预测成功率达到了89.3%;与现有的方法比较,发现对于Mitochondrial类凋亡蛋白,支持向量机方法有更好的预测效果. 相似文献
4.
用离散量预测原核生物蛋白质的亚细胞位置 总被引:5,自引:2,他引:5
基于不同亚细胞位置中蛋白质的氨基酸组成及序列信息不同这一观点,以单个氨基酸含量及两两组合氨基酸含量为信息构成离散源,分别计算了原核生物蛋白质三类亚细胞位置的标准离散量D(Z),D(Xp),D(Xc).利用离散增量的概念预测蛋白质的亚细胞位置,它是由这个蛋白质的离散量D(X)与三个标准离散量D(Xc),D(Xp),D(Xc)之间离散增量的最小值所决定的.采用Self—consistency检验和Jack—knife检验方法,给出了选择五组不同信息作为离散源中参数时的预测结果.与现有的方法比较,发现用Jack—knife检验法预测extracellular类蛋白质时,给出的离散量方法能够给出最好的预测性能,结果也表明提取更多有效的序列信息是提高预测精度的关键. 相似文献
5.
长链非编码RNA(Long non-coding RNA,lncRNA)是指一类长度超过200个核苷酸、没有编码蛋白质的能力或编码蛋白质的能力极低的RNA分子,它与人类生命活动和多种疾病息息相关。有研究表明lncRNA的亚细胞定位可以为其功能研究提供重要的生物学信息。越来越多的实验数据证实,lncRNA具有多个位置标记,而现有算法大多集中在识别单个位置标记的lncRNA上。因此,为了识别lncRNA的亚细胞多定位,引入了k-mer核苷酸组成和序列顺序相关因子作为lncRNA的特征向量,采用方差分析(ANOVA)筛选出最优特征子集,基于支持向量机算法来预测lncRNA的亚细胞多定位问题。通过5折交叉检验对模型进行评估。结果表明,基准数据集和独立数据集的预测位置覆盖率分别达到87.22%和71.56%。 相似文献
6.
长链非编码RNA(long non-coding RNA,lncRNA)在细胞生物学过程和疾病发展中扮演着关键性角色。由于lncRNA的亚细胞定位和其生物学功能密切相关,因此确定lncRNA的亚细胞定位具有重要意义。目前已有一些基于机器学习的方法来识别lncRNA的亚细胞位置,但在识别人类lncRNA的细胞特异性定位方面的相关工作仍然有限。该模型对人类细胞系lncRNA亚细胞定位问题进行了研究,提取了k-mer、CKSNAP、SRS和TSS特征信息,并对各类特征信息进行了融合,基于XGBoost和LightGBM结合的算法来预测人类细胞系lncRNA的亚细胞位置,并通过10倍交叉检验对模型进行了评估。结果表明,该模型预测人类细胞系lncRNA亚细胞定位的方法与现有的预测方法相比,预测成功率均有一定改进,其基准数据集的AUROC值最高达到92.26%。 相似文献
7.
SD序列矩阵表示与保守性 总被引:4,自引:1,他引:3
提出用矩阵形式表示一组核酸序列的方法.以大肠杆菌SD序列(在起始密码子ATG前-1~-25位点的25个碱基范围内)为例给出了表示各位点单碱基、相邻双碱基、相邻三碱基出现的矩阵形式,并计算了体现序列的保守性、关联性的M(l)值,发现大肠杆菌SD序列保守性,相邻双碱基、三碱基关联性与基因表达水平成正相关关系 相似文献
8.
长链非编码RNA(lncRNA)的亚细胞位置信息对于了解其复杂的生物学功能和生物学过程具有重要的意义。建立了一个lncRNA的亚细胞定位数据集,包括细胞核、细胞质基质、核糖体和外泌体四个位置,提取了lncRNA的多种特征信息,并对各类特征进行了特征融合。在利用SMOTE(Synthetic Minority Oversampling Technique)方法对数据集进行平衡优化的基础上,采用支持向量机(SVM)算法对lncRNA的亚细胞定位进行分类预测。Jackknife检验结果显示总体预测成功率可达98.54%,表明所提取的特征信息对于lncRNA的亚细胞定位预测有很好的效果,可以为了解lncRNA的生物学功能提供帮助。 相似文献
9.
基因组中基因间的关联 总被引:5,自引:2,他引:3
根据基因中核苷关联短程为主性(D2为主)的概念,通过比较基因间的D2,定义基因组中的基因关联F,F取值的主要范围为0和1间,F ̄1 强关联,F ̄0表示关联是无规的,以酵母基因组为例,研究了酵母各条染色体上的基因关联,发现F的最可几值一般在0.8 ̄0.9,证明了基因间存在较强的关联,比较编码区和非编码区,发现非编码区间的关联,非编区和编码区的关联编码区间的磁联为弱,F值低10%左右。 相似文献
10.
E.coli和Yeast基因起始与终止密码子邻近序列碱基保守性、关联性的对比研究 总被引:2,自引:0,他引:2
计算E.coli和Yeast基因起始与终止密码子邻近序列单碱基、相邻双碱基、相邻三碱基的碱基出现概率得出的M1(l)、M2(l)、M3(l)值,很好地体现了原核生物E.coli和真核生物Yeast翻译起始区域的显著差异;矩阵P的本征值之和,可作为衡量不同生物基因碱基保守性、关联性强弱程度的一个指标. 相似文献