首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

2.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

3.
针对传统图像特征降维方法计算量大、 无法去除冗余信息、 未考虑相关性等缺陷, 提出一种结合快速主成分分析(FPCA)和ReliefF算法的图像特征降维方法. 该方法先利用FPCA[KG*6]算法对样本数据进行初次降维, 去除样本中的冗余信息;  再利用ReliefF算法计算样本特征的分类权重, 根据权重对特征进行组合优化. 在算法实现过程中, 采用递归排除策略, 进一步提升了算法特征寻优能力. 仿真实验表明, 利用本文算法优选出的图像特征, 可较好地提高聚类结果, 适合实际工程的应用.  相似文献   

4.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

5.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

6.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

7.
高光谱图像具有数据维数高、有标签样本少的特点,影响了现有分类方法的效果。针对这一情况,提出一种结合波段选择的半监督分类算法。该算法首先通过波段选择方法,去除高光谱图像中的冗余信息,进而降低复杂度和提高泛化能力;然后通过差分进化算法交叉变异无标记样本,选取置信度高的样本扩充入标记样本群以提高分类精度。实验结果表明,该算法能够有效地提升在标记样本有限的情况下分类器的分类精度与分类速度。  相似文献   

8.
当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,去除冗余特征,保留有效的特征信息。应用支持向量机算法构建网络数据流快速分类模型,结合谱聚类算法对多数类样本进行聚类,组成新的数据集并将其输入到分类模型中得出相关的分类结果。实验结果表明,所提方法的平均F1值为0.95,F1值越大分类结果越准确,说明该方法能够满足高速网络数据流快速准确分类,具有优越的数据分类性能,应用价值更高。  相似文献   

9.
【目的】针对标准协同训练中视图分割不充分冗余导致两个分类器误差累积加大,且两个分类器对同一个未标记样本分类不一致的问题,提出了结合信息增益率和K-means聚类的协同训练算法。【方法】该算法先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,再在每次分类过程中应用K-means聚类确定标记不一致样本点的最终类别。【结果】通过在9个UCI数据集上的3组实验表明,与对比算法相比,所提算法中两视图分类器的平均正确率差值降低了2.9%,有效均衡了分类器性能,同时在分类准确率和算法稳定性上也有较大提升。【结论】利用信息增益率将关键特征均衡划分到两个视图,有效解决了视图分割不充分冗余问题;K-means聚类重新分类标记不一致的样本,降低了样本被误分类的概率。  相似文献   

10.
对于许多模式识别问题来说,特征选择是一个非常重要的数据预处理技术,这对于维数高,而样本又相对较小的微阵列数据来说更是如此.提出一种将粒计算与传统的SVM-RFE算法相结合的特征选择算法.这种算法能够有效地去除大部分与分类无关的基因;并且能够搜索到基因数量相对较少而分类能力相对较强的信息基因子集.  相似文献   

11.
大规模的训练集中通常含有许多相似样本和大量对分类器模型构造"无用"的冗余信息,利用全部样本进行训练不但会增加训练时间,还可能因为出现"过拟合"现象而导致泛化能力下降。针对这一问题,本文从最具代表性样本与最近边界样本两个角度综合考虑,提出一种基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法。该算法考虑到有价值训练样本对SVM分类器性能的重要影响,引进减法聚类利用改进的加权压缩近邻方法选择最具代表性的样本进行训练,在此基础上利用最近边界规则在随机小样本池中选择边界样本提高分类精度。在UCI和KDDCup1999数据集上的实验结果表明,本文的算法能够有效地去除大训练集中的冗余信息,以较少的样本获得更好的分类性能。  相似文献   

12.
ReliefF算法在雷达辐射源信号识别中的应用   总被引:1,自引:0,他引:1  
采用小波包变换提取雷达辐射源信号特征能够有效对信号进行识别,然而,由小波包变换提取的信号特征维数高,部分信号特征受噪声污染严重.基于此,采用ReliefF算法对信号特征的分类能力进行评价,选择出小波包中分类能力强的信号特征,再通过特征相关度算法去除分类能力相近的冗余特征,利用剩余的分类能力强的信号特征组成特征向量进行分类.仿真实验结果显示,该方法用较少的信号特征能够获得较高的正确识别率.  相似文献   

13.
针对特征选择中Filter与Wrapper方法分别存在的问题,本文提出了一种新的基于分类互补性分析的特征选择算法.该方法将Filter方法与Wrapper方法结合起来.先根据ReliefF评估和对称不确定性评估去除不相关特征,再使用对称不确定性评估去除冗余特征,最后使用基于分类互补性分析的Wrapper特征选择算法选出最后的目标子集.实验表明该算法结合了Filter与Wrapper两者的优点,具备了高准确性,同时可以减少时间开销.文章最后在数字乳腺图像肿块的检测中应用了该算法,得到了良好的效果.  相似文献   

14.
提出一种模糊树节点的随机森林算法进行异常点检测.在构建随机森林的分类决策树过程中,把模糊方法引入到二叉决策树的节点中,在节点中设计关于类别划分的模糊区域,在模糊区域上设计正常与异常隶属度函数.当某样本通过决策树节点的模糊区域时,若该样本的异常隶属度大于正常隶属度,则该样本被判别为异常类;否则,该样本进入决策树的下层树节点,若无下层节点则被判别为正常类.该样本的最终类别由随机森林算法中的投票步骤决定.在四个UCI数据集上的实验结果表明,在异常点检测的综合性能(召回率、精度和准确率)上,与基于随机森林的异常点检测算法RFV和RFP相比,新方法不仅具有较高的综合性能且性能稳定,还具有与一类支持向量机相当的性能,其部分实验结果优于一类支持向量机.  相似文献   

15.
针对多类高维基因表达谱的特点,提出一种基于闭合模式的多类分类算法CBCP,即根据垂直格式的数据集采用路径枚举的方法挖掘闭合模式,极大地减少了冗余模式的产生.然后,对所有闭合模式进行排序,通过覆盖训练集建立分类器.针对分类器无法识别的样本提出权重算法进行判断,克服了使用Default类预测不精确的问题.研究结果表明,CBCP与经典分类算法如CBA和C4.5相比具有更高的预测准确率,并且在基因数大幅增加而样本数不变的情况下仍具有较强的稳定性,证明CBCP的可扩展性强,适用于高维数据集的多类分类预测.  相似文献   

16.
为了从高维基因表达谱数据中识别出与肿瘤分类高相关的基因子集,提出一种基于最小冗余最大相关(minimal redundancy maximal relevance,mRMR)和改进磷虾群(improve krill herd,IKH)算法的两阶段混合特征选择算法,即采用最小冗余最大相关算法评价特征重要性以筛选出高相关、...  相似文献   

17.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

18.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

19.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率.  相似文献   

20.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号