首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

2.
赵晚昭  谢聪 《广西科学》2022,29(2):260-268
针对现有基因微阵列数据分类中存在的数据维度高、容易发生过拟合的问题,提出了基于BTLBOGSA(Binary TLBOGSA)与卷积神经网络(Convolutional Neural Network, CNN)的基因微阵列数据分类模型(BTLBOGSA-CNN)。该模型首先针对基因微阵列数据分类时存在的数据维度高的问题,利用新的编码策略,将连续搜索空间转换为二元搜索空间,结合教与学优化(Teaching-Learning-Based Optimization, TLBO)算法的二元变体与引力搜索算法(Gravitational Search Algorithm, GSA)的各自特点,基于BTLBOGSA方法从基因微阵列数据集中选择具有高鉴别性的基因;然后针对基因微阵列数据分类易发生过拟合问题的现象,利用卷积神经网络进行基因微阵列数据的分类。利用公开的基因微阵列数据集进行仿真实验,从TLBO算法与GSA结合的有效性、BTLBOGSA与CNN结合的有效性、BTLBOGSA-CNN与其他已有分类模型相比的有效性3个方面进行对比分析,结果表明,BTLBOGSA-CNN模型可以在较少的特征基因下...  相似文献   

3.
如何从海量基因信息中高效挖掘出遗传性疾病密切相关的基因位点是全基因组关联性分析的核心问题.然而,目前常用的致病基因位点选择单变量分析技术不能发现多基因复杂交互形成的致病机制.为此,本文尝试从多变量分析角度,采用稀疏优化模型,实现致病基因的选择.为进一步实现致病基因位点的选择,采用基于L12范数的最小组稀疏角回归算法,通过调整正则化系数大小来控制模型的组间稀疏度,最终有效实现了致病基因和基因位点的选择.最后,通过某遗传疾病的真实基因数据,验证了该方法的有效性.  相似文献   

4.
针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规模基因数据集。采用PAM(prediction analysis for microarrays)分类器,在RSCTC 2010 Discovery Challenge提供的12个竞赛数据集作基因特征选择与分类实验,实验结果表明,提出的算法能够选择高分辨、低冗余的基因子集,与目前其他基因特征选择算法相比,可以提高分类器性能。  相似文献   

5.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

6.
基于结肠癌基因表达谱数据集,提出了一种信息基因提取的新方法。该方法结合了支持向量机(SVM)、Bhattacharyya距离、递归特征消除(RFE)和快速基于相关性过滤器(FCBF)方法。首先,利用Bhattacharyya距离与SVM-RFE方法结合去除无关基因,然后运用FCBF方法得到信息基因,最后以支持向量机作为分类器对结肠癌样本进行分类识别。实验结果表明,同现有的方法相比,该方法在提取基因数量和准确率上都有明显的优势。  相似文献   

7.
精神分裂症(Schizophrenia)是一种遗传性复杂、多基因相关的疾病,对其相关基因的研究一直都是疾病基因研究的热点和前沿,也是遗传学领域的难题.随着目前各种组学数据(Omics Data)的产生,全基因组关联研究(GWAS)中和精神分裂症相关的单核苷酸多态位点(SNP)越来越多的公布于学界,整合这些大规模数据并利用生物信息学模型预测精神分裂症相关基因能为进一步翔实探究致病或相关基因提供基因库的富集和优选.本文首先运用已被证明预测表现优秀的随机森林模型(Random Forests)预测精神分裂症的相关基因,然后用全基因组关联研究得到的相关基因的SNP位点进行验证及进一步筛选候选基因.结果随机森林预测模型得到33个精神分裂症候选基因,其中10个基因具有58个SNP位点是精神分裂症GWAS中的显著性SNP位点,因而这10个基因为优选的精神分裂症候选基因,文献查询结果表明这10个优选相关基因与精神分裂症有密切联系.  相似文献   

8.
提出了一种基于特征向量中心性推断基因调控网络结构的算法,通过特征向量中心性挖掘基因在网络中的拓扑信息,结合基因对之间的相关性和拓扑信息构建完整的基因调控网络.算法在n个变量和n个样本的DREAM数据集以及包含9个变量和9个样本的大肠杆菌数据集上进行仿真测试,并与现有的基于距离相关性和网络拓扑中性的3种最先进的网络推理算法进行了比较,算法结果显示该方法能够提高基因调控网络结构的预测精度.  相似文献   

9.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

10.
利用贝叶斯网络描述单核苷酸多态性(SNP)与疾病之间的关系,以SNP与疾病之间的贝叶斯评分作为评价SNP与疾病关联度的目标函数,在全基因数据中通过布谷鸟优化算法对SNP与疾病之间的关联进行启发式搜索来寻找致病SNP;通过布谷鸟算法寻找致病SNP可以在保留SNP与疾病相关信息的同时,又能在全基因组数据中高效准确地找出致病SNP。实验结果表明:与已有方法相比,本文基于布谷鸟优化算法的全基因组关联分析方法具有更好的检测SNP与疾病之间关联的能力。  相似文献   

11.
心脑血管疾病是一种严重威胁人类健康的常见疾病,且在中等发达国家的患病率正处于逐年上升的趋势,针对无症状个体患者进行全面可靠的风险评估是预防该疾病的关键.基于高通量测序平台,以高通量测序数据为基础,通过使用多元线性回归模型来预测与心脑血管疾病高度相关的基因和SNP位点的odds ratio(OR)值信息,以此构建心脑血管风险评估模型.将这一模型预测所得到的风险评估结果与临床诊断结果进行比较,两者具有高度的一致性.  相似文献   

12.
针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行多步骤降维处理的分类方法.第一步,采用基因表达差异显著性分析方法(SAM)筛选得到差异表达基因子集.第二步,采用支持向量机(SVM)分类器对该差异表达基因子集进行进一步的分类降维.将该方法用来处理大肠癌和白血病数据集,得到了数量较少而分类能力较强的特征基因子集.实验结果证明该方法可以快速有效地筛选肿瘤特征基因.  相似文献   

13.
从定位于肝癌高频缺失区的肿瘤相关基因入手,查询单核苷酸多态性(SNP)数据库信息,获得编码区SNP(cSNP)序列,设计引物,根据SNP位点设计寡核苷酸探针,构建SNP芯片.分别从正常人和HBV患者血样中提取基因组DNA,PCR扩增标记含SNP位点的序列,将地高辛标记的PCR产物与SNP芯片杂交.结果表明,正常人基因组与HBV患者基因组肿瘤相关基因SNP之间存在差异,检测到EGFL3(rs947 345),Gas- pase9(rs2 308 950),E2F2(rs3 218 171)三个cSNP位点的基因频率在两组人群中差异显著.HBV患者中存在的高频多态位点可能与其肝癌易感性相关.  相似文献   

14.
相关疾病基因的发现和预测是人类基因组研究的重要目标.近些年,一些研究者通过基于网络结构的方法来解决这个难题.然而,大多数方法在推理过程中仅使用了局部的网络信息,并且仅限于推理单一基因的关联.并且这些方法很少考虑到疾病-基因关联网络的网络拓扑性.笔者提出一种改进的基于二部图网络结构推理(improved network-based inference)的计算方法.该方法基于已知的疾病-基因网络拓扑相似性来发现更多潜在致病基因.文中使用的是OMIM数据库中的203种疾病的数据,通过留一交叉验证法验证实验,并获得了88.9%的AUC值.与文中提到的另外两种方法相比,该文方法能够有效地预测潜在致病基因.  相似文献   

15.
本文提出一种基于信息增益的加权贝叶斯插补法(WBIIG),通过加入属性权重,使得属性对插补顺序的影响被考虑到模型中,实现对基于信息增益的贝叶斯插补法的优化,分别在3种缺失类型(完全随机缺失、随机缺失、非随机缺失)的心脏病类医疗数据集上进行实验验证。结果显示,在多数情形下,WBIIG对3种心脏病类医疗缺失数据集插补后得到的插补精度和分类预测正确率高于基于信息增益的贝叶斯插补法(BIIG)。本文提出的方法能够有效提升缺失值插补的准确性以及对插补后缺失数据的分类预测正确率。  相似文献   

16.
现有对低级别胶质瘤(low-grade glioma, LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力网络提取LGG多组学数据的重要特征,使用嵌入网络处理临床数据得到临床数据特征;将临床数据特征与组学数据重要特征进行融合,采用密集深度神经网络进行LGG分子亚型分类。实验结果表明,MODDA的分类性能优于现有LGG分子亚型分类方法,并且在外部验证数据集上也表现出较好的泛化性能。此外,对卡方检验过程中发现的重要基因进行了富集基因本体论(gene ontology, GO)术语和生物学途径分析,有助于LGG的个性化治疗。  相似文献   

17.
为能够更好地从高特征维度的DNA微阵列数据中挖掘癌症相关基因,实现对恶性肿瘤的分子分型,提出了一种基于演化超网络模型的DNA微阵列数据分类方法?演化超网络是受生物网络启发而建立的一种认知学习模型,其学习过程非常适用于发掘基因间的相互作用?该方法采用信噪比进行基因选择,选择后的基因经归一化后用于演化超网络的学习和分类?通过急性白血病和结肠癌2种数据集进行实验,结果表明,演化超网络在分类精度方面与当前其他方法有较高的可比性?  相似文献   

18.
魏峻 《河南科学》2015,(1):58-64
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.  相似文献   

19.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

20.
利用PLS-VIP方法筛选差异表达基因   总被引:1,自引:0,他引:1  
提出一种基于变量权重寻找差异表达基因的新方法。该方法的最终目的是从微阵列数据中抽取出核心变量(基因)。将该种方法抽取出的差异表达基因判别样本的能力和普通的PLS方法以及判别最小二乘方法进行比较,结果表明该方法的错误率明显低于其他两种传统方法。因此,PLS-VIP方法是一种较为合适的抽取差异表达基因并判别样本的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号