首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

2.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

3.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

4.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

5.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

6.
为了克服Relief选择前k个特征作为约简子集所存在的原始特征空间中的近邻在约简后的特征子空间中不一定还是近邻的问题,提出了一种在特征子空间中评价候选特征子集类别区分能力的方法,并结合最好优先特征搜索策略提出了一种新的特征子集选取方法.在12个UCI(加州大学欧文分校)数据集和1个老年痴呆实测数据集上,就约减能力对所提方法与其他3种经典特征选择方法进行了比较,并用决策树、逻辑回归模型详细比较了分类效果.实验结果表明:所提方法不仅能够选出特征数目较少的特征子集,而且特征子集的分类效果良好.  相似文献   

7.
针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行多步骤降维处理的分类方法.第一步,采用基因表达差异显著性分析方法(SAM)筛选得到差异表达基因子集.第二步,采用支持向量机(SVM)分类器对该差异表达基因子集进行进一步的分类降维.将该方法用来处理大肠癌和白血病数据集,得到了数量较少而分类能力较强的特征基因子集.实验结果证明该方法可以快速有效地筛选肿瘤特征基因.  相似文献   

8.
随着DNA微列阵技术的发展,利用基因表达谱数据进行生物信息的有效挖掘已经成为研究热点.因此,该文中提出将点的代数连通强度与非负矩阵分解相结合的方法对基因表达数据进行分类处理.首先利用点的代数连通强度剔除受外界因素影响过大的基因数据并用修正的特征计分准则进行计分排序,选取具有高计分的基因子集;接着利用近来流行的非负矩阵分解将该基因子集映射到极低维的特征空间;最后利用SVM分类器实现分类实验.通过几组公开的基因表达谱数据集的实验结果以及与其他方法的对比分析,验证了该方法是有效的、可行的.  相似文献   

9.
特征选择是高维小样本癌症基因数据分析的首要和关键步骤,但是现有特征选择算法存在特征子集依赖于训练样本且随训练样本不同而变化的问题。为了解决特征选择过程的特征子集不稳定问题,提出一种基于核极限学习机的集成特征选择方法,利用5-折交叉验证划分原始数据,对各训练集继续采用5-折交叉验证进行划分并进行特征选择,以所得5个特征子集之并集作为该训练集的特征子集,构造核极限学习机评价该特征子集的分类性能,以原始数据集5-折交叉验证所得特征子集的平均Jaccard系数评价特征选择算法所选特征子集的稳定性。5个基因数据集的实验测试以及与经典特征选择算法SVM-RFE、LLE Score、ARCO、DRJMIM、Random Forest和mRMR的实验比较表明,本文算法不仅能选择到稳定的特征子集,且所选特征子集具有很好的泛化能力。  相似文献   

10.
基于粗糙集和支持向量机的采空区煤自燃火灾预报   总被引:1,自引:0,他引:1  
考虑到采用标志气体分析法对煤自燃火灾预报时特征维数较高、特征之间存在冗余且样本有限,文中提出基于粗糙集和支持向量机的采空区煤自燃火灾预报方法。该方法首先采用粗糙集对原始样本去除冗余和特征维数约简得到多组候选特征子集,然后对获得的多组候选特征子集利用支持向量机进行分类和性能评价,选取分类性能最好的一组特征子集用于设计支持向量机分类器,并对采空区遗煤自燃状态进行预测分析。实验选择大同矿区煤样自然发火实验数据,与4种典型分类预测算法的进行比较分析,实验结果表明文中算法预测准确率更高,训练速度更快。粗糙集为煤自燃火灾预报中标志气体选择提供了一个理论依据和新的思路,而支持向量机则提高了煤自燃火灾预测的精度。  相似文献   

11.
微阵列数据具有样本小、维度高的特点,给数据分析带来了困难。因此,在生物信息学的研究和应用中,从微阵列数据里挑选主基因(特征选取)是十分重要和有意义的。本文采用基于最优正交质心特征选取算法(OCFS)来挑选主基因,并与基于信噪比的主基因挑选法和基于遗传算法的主基因挑选法进行了对比。利用挑选出的主基因,采用支持向量机(SVM)对数据样本进行了分类研究。通过实验,在经典的白血病数据集上,对于34个样本的测试集,达到了33/34的分类准确率,表明了本方法的适用性。  相似文献   

12.
为了消除与分类无关和冗余基因,以提高基因的分类精度和效率,提出一种文化算法框架下混合群智能算法的肿瘤信息基因选择方法.首先采用ReliefF算法初选基因子集,然后利用文化算法框架下混合群智能算法选择最优的信息基因,最后在3个标准肿瘤信息基因数据集对其性能进行测试.仿真结果表明,文化算法框架下混合群智能算法可以有效去掉无用的噪声基因,降低计算复杂度,分类精度均可以达到100%,具有较好的实际应用价值.  相似文献   

13.
癌症基因表达数据的熵度量分类方法   总被引:5,自引:4,他引:1  
基因芯片技术的出现和发展为生物医学领域带来了深远影响,运用分类方法研究其产生的海量数据对癌症的分类及治疗有重要意义.该文提出一种利用熵度量作为指标进行癌症基因表达数据特征提取的方法.首先对基因表达数据进行筛选并计算各个基因的熵,然后提取出熵最大的若干基因作为特征基因,并用支持向量机进行分类.对前列腺癌基因表达数据的留一法以及分组法实验都证明了该方法的有效性.  相似文献   

14.
对于许多模式识别问题来说,特征选择是一个非常重要的数据预处理技术,这对于维数高,而样本又相对较小的微阵列数据来说更是如此.提出一种将粒计算与传统的SVM-RFE算法相结合的特征选择算法.这种算法能够有效地去除大部分与分类无关的基因;并且能够搜索到基因数量相对较少而分类能力相对较强的信息基因子集.  相似文献   

15.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

16.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

17.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号