首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行特征与类别、特征与特征的相关性分析,删除不相关特征及冗余特征以获得最优特征子集.实验结果表明:FCBF-NMI算法得到的最优特征子集更合理,平均分类正确率为89.68%,所用时间平均低至2.64s.  相似文献   

2.
为了提高模糊粗糙集特征选择算法的计算效率,在每次迭代过程中通过不断缩减样本和特征的搜索范围,提出了一种新的模糊粗糙集特征选择算法.为了减少样本的搜索范围,利用样本对决策类下近似隶属度的单调性,构建样本的筛选机制,用以筛除当前所选特征子集已保持决策类下近似隶属度的样本;为了缩减特征的搜索范围,采用特征冗余性概念,构建特征搜索机制,用以移除已被确定为冗余的特征;通过融合样本筛选机制和特征搜索准则,设计模糊粗糙集特征选择的高效算法.数值实验表明,所提算法具有高效性和有效性.  相似文献   

3.
针对故障特征集维数高以及冗余的问题,提出一种自适应邻域选择的改进局部切空间排列维数约简方法.通过考虑流形的采样密度、局部弯曲度和局部切空间近似偏离角度,自适应构建样本邻域,以保证局部线性度,能提高算法鲁棒性.为提高故障诊断准确率,提出改进Fisher准则的特征评价方法,首先对原始特征集进行特征选择,优选出能表征类间散度大、类内散度小和低冗余的故障特征,然后采用改进的局部切空间排列算法进行特征融合,得到低维的敏感特征子集,并输入到k最近邻分类器进行故障识别.用滚动轴承不同部位、不同故障程度的实验数据验证了该方法的有效性.  相似文献   

4.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

5.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

6.
孤立性肺结节诊断模型中未得到充分解决的一个关键问题就是如何选择合适的特征子集。为了构建一个良好的诊断预测模型,提高肺结节良恶性诊断的效率以及准确率,提出了一种基于联合互信息的混合模型特征子集选择算法。该算法综合过滤式和包裹式特征选择模型各自的优势,首先使用过滤式方法得到与诊断有高相关度的候选特征子集,然后通过包裹式方法对候选特征子集进行特征间冗余分析,最后得到最优特征子集。实验表明,该算法与基于其他互信息的过滤式、混合模型特征选择方法相比,不仅在特征子集数目上,而且在良恶性诊断的敏感性、特异性和平均分类准确率上,均具有很好的性能效果。  相似文献   

7.
针对原始故障数据集因"高维"和"海量"引发的"维数灾难"问题,提出一种基于类内类间距离判据和遗传算法相结合的故障特征选择方法.在提取出时域、频域、小波包频带能量作为描述系统状态的原始故障特征集基础上,经类内类间距离判据初次选择剔除不相关特征之后,引入遗传算法二次选择去除冗余特征,得到一种近似最优特征子集.结果表明:基于类内类间距离判据和遗传算法的故障特征选择方法可以剔除不相关和冗余特征,最终得到精简特征子集,并且筛选出的特征子集对故障类型的判别有很高的识别能力.  相似文献   

8.
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。  相似文献   

9.
为消除人体穴位的阻抗信号特征集中存在的冗余和不相关分量的问题,提出了一种基于遗传算法的人体穴位阻抗特征子集选择与优化算法.通过分析穴位阻抗信号的自回归(AR)模型谱图建立了穴位原始特征样本集,利用类内-类间距离判据构造遗传算法的适应度函数并改进遗传算法的特征优化算子.经人体穴位的电阻抗特征选择与优化实例分析表明:该方法具有较好的寻优性能和适应度稳定,在不增加原始信息的情况下,能够有效地减少分类识别的特征数和提高信号识别的准确率,且将穴位阻抗特征的平均状态辨识率提高9%左右.  相似文献   

10.
互信息过滤式特征选择算法往往仅局限于互信息这一度量标准.为规避采取单一的互信息标准的局限性,在互信息的基础上引入基于距离度量的算法RReliefF,从而得出更好的过滤式准则.将RReliefF用于分类任务,度量特征与标签的相关性;应用最大互信息系数(maximal information coefficient,MIC)度量特征与特征之间的冗余性、特征与标签的相关性;最后,应用熵权法为MIC和RReliefF进行客观赋权,提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method, FFSBEWM).在13个数据集上进行对比实验,结果表明,FFSBEWM所选择的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法.  相似文献   

11.
针对马尔科夫毯过滤(Markov Blanket Filter,MBF)方法中使用的线性相关系数存在只能度量变量间的线性相关性,而无法度量变量间非线性相关的问题,提出两阶段Filter特征选择方法 MBFSU-ReliefF。该方法对马尔科夫毯过滤方法作了改进,可利用对称不确定性以度量变量间的线性和非线性相关性。实验使用UCI和ASU上的4个数据集分析比较MBFSU-ReliefF、ReliefF、马尔科夫毯过滤和其他多种Filter方法,使用朴素贝叶斯和SVM两种分类器对特征选择方法选取的特征优劣进行评价,实验结果表明,MBFSU-ReliefF方法较其他方法具有较高的分类准确率。  相似文献   

12.
应用特征选择处理多标签数据分类时"维度灾难"问题已成为重要研究方向,因此提出一种基于邻域维护准则的特征选择算法(NPFS,feature selection algorithm based on neighborhood preservation criterion)。通过近似基于特征子空间和基于标签空间的2个相似度矩阵来构建相似性维护表达式,再通过线性近似扩展相似性维护公式得到邻域关系维护公式,并计算出邻域关系维护得分(NRPS,neighborhood relationship preserving score)来评估特征子集的重要性,结合贪婪方法设计具有NRPS的多标签特征选择算法(NPFS)。仿真结果表明,对比MMIFS算法和MDMR算法,所提出的算法在平均准确率、覆盖率、汉明损失、1-错误率、排名损失5个性能指标上均有改善。  相似文献   

13.
针对多源生理信号应用于驾驶压力检测中存在信号种类多、特征维数高以及运算效率低的问题,提出了一种结合特征选择(ReliefF)算法、最大相关最小冗余(MRMR)算法和多种群遗传算法(MPGA)的混合特征选择算法。首先利用ReliefF算法计算特征信号的权重值,初选出对分类效果影响显著的特征子集;然后利用MRMR算法去掉冗余的特征,进一步精简特征子集;在此基础上采用MPGA挑选出效果最佳的特征子集。将该算法应用于驾驶压力检测,并与其他类似算法进行了对比。实验结果表明,该算法有效地消除了高维特征中的冗余信息,提高了特征选择阶段的运算效率且达到了很好的分类效果。  相似文献   

14.
针对非侵入式负荷辨识中,单一V-I轨迹特征无法对相似的轨迹特征进行有效识别以及所提取特征易出现冗余甚至噪声特征的问题,提出了一种基于K-means聚类与PSO特征优选的分级非侵入式负荷识别方法。首先,利用K-means算法对负荷V-I轨迹的HOG特征进行初步分类,将轨迹相似的电器分为一类;然后,对每一类中的电器电流数据进行多维特征提取并采用PSO算法选取最优特征子集;最后,利用KNN模型进行二级负荷识别。实验结果表明,该方法有效提高了负荷识别准确率;提取V-I轨迹的HOG特征解决了同一电器V-I轨迹波动的问题;对一级分类后的每一大类单独进行PSO特征优选KNN二级分类,解决了部分电器对特征子集适应性差的问题。所提方法在一定程度上解决了冗余特征甚至噪声特征对辨识准确率的影响,为负荷特征的选取提供了新的思路,对负荷辨识的实际应用具有重要的参考意义。  相似文献   

15.
基于粗糙集和支持向量机的采空区煤自燃火灾预报   总被引:1,自引:0,他引:1  
考虑到采用标志气体分析法对煤自燃火灾预报时特征维数较高、特征之间存在冗余且样本有限,文中提出基于粗糙集和支持向量机的采空区煤自燃火灾预报方法。该方法首先采用粗糙集对原始样本去除冗余和特征维数约简得到多组候选特征子集,然后对获得的多组候选特征子集利用支持向量机进行分类和性能评价,选取分类性能最好的一组特征子集用于设计支持向量机分类器,并对采空区遗煤自燃状态进行预测分析。实验选择大同矿区煤样自然发火实验数据,与4种典型分类预测算法的进行比较分析,实验结果表明文中算法预测准确率更高,训练速度更快。粗糙集为煤自燃火灾预报中标志气体选择提供了一个理论依据和新的思路,而支持向量机则提高了煤自燃火灾预测的精度。  相似文献   

16.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

17.
为了更好地预处理未标记数据,大多数基于图正则的无监督特征选择算法通过构造样本的相似性矩阵来删除冗余信息并选择具有代表性的特征子集。这些方法中的大多数图都是用固定数量的近邻数来初始化,忽略了数据分布不均匀的问题。为了解决这个问题,提出了一种基于自适应邻域和自表示正则的无监督特征选择算法(Adaptive neighborhood regularized self-representation, ANRSR)来选择具有代表性和判别性的特征子集。为了保留局部内在结构,该算法将基于自适应邻域的流形正则化运用到自表示模型中,并利用了一种迭代方法来解决此优化问题。最后,选取4种经典的无监督特征选择算法,在几个基准数据集上进行了对比实验,验证所提算法能够选出具有更高聚类精度和互信息的判别性特征子集。  相似文献   

18.
提出一种应用于科技文献分类的文本特征选择方法.该方法运用了聚类与关联规则的思想,对文本特征进行逐层选择.同时为提高K-means算法的聚类性能,对K-means算法做了相应的改进,通过为算法的终止条件设定标准值来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰.采用KNN分类器进行对比实验,实验结果表明,该特征选择方法在科技文献分类方面有较高的准确率.  相似文献   

19.
在基于惯性传感器人体行为识别的研究中,特征选择的作用是挑选相关特征,以提高分类性能,去除冗余特征以降低计算复杂度。针对传统的过滤式特征选择方法仅使用一种相关度量系数筛选特征效果不佳的问题,提出一种改进的基于最大相关与最小冗余(mRmR)准则的特征选择方法。该方法在基于mRmR准则下,采用多种相关度量系数融合的方式,在考虑分类类别的条件下,分析待挑选特征与已选特征间的相关性对特征筛选可能产生的积极影响,以去除部分冗余、不相关特征,进而得到初选特征子集;然后利用二进制数对筛选后的特征编码,通过遗传算法搜索最优或次优特征子集。分别使用SVM和KNN分类器对7种日常行为进行分类。实验结果表明,与其他几种方法相比,该方法对实验分类的7种行为有最高的总体平均识别精度,通过SVM和KNN分类的各行为总体平均识别精度分别达到了97.02%和95.73%,与传统的mRmR方法相比,分别提高了13.72%和9.92%。  相似文献   

20.
针对空气处理设备(AHU)故障贫数据,基于深度置信网络(DBN)模型对4种特征选择算法进行对比研究,结果表明最大相关最小冗余算法的特征子集在诊断准确率及子集元素稳定性上表现最优。提出将DBN 嵌入自训练框架的故障诊断模型,发现DBN自训练的诊断准确率较单纯DBN最高可提升19.5%。提出均匀抽样及按比例抽样2种自训练伪标签抽样策略,二者的诊断准确率均随抽样数减小而增大,在不同抽样数中的最大差异为3.42%;在所有贫数据样本中,均匀抽样策略始终优于按比例抽样,诊断准确率最大相差1.39%,表明在故障标签匮乏时,采用均匀抽样策略及较小的抽样数有利于提升DBN自训练的诊断性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号