首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
通过寻找一个最优的特征子集,特征选择可以降低计算复杂度,提高分类精度以及结果的可理解性。提出基于大间隔信息粒化的特征选择算法,通过聚类等方式对原始数据进行单类信息粒化,然后在粒化的基础上构造了模糊间隔和类间隔2个评价指标进行特征评价。并分别在不同的数据上验证了这种特征选择方法的有效性,实验结果表明,基于大间隔粒计算的特征选择算法效果要优于其他的大间隔特征算法。  相似文献   

2.
文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。  相似文献   

3.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

4.
针对高维数据集中冗余特征或无关特征降低机器学习模型分类准确率的问题,提出了一种基于近似马尔科夫毯的特征选择(nmRMR)算法。该算法首先利用最大相关最小冗余的准则进行特征相关性排序;采用近似马尔科夫毯算法对冗余特征或者无关特征进行删除,并最大程度地提高特征之间的相关性从而获得最优特征子集。在UCI的8个公开数据集上对比的实验结果表明:与mRMR算法相比,本文算法所选择出的特征子集数平均减少了6.875个,平均分类准确率提高了0.78%;与FullSet算法相比,本文算法所选择出的特征子集数平均减少了20.56个,平均分类准确率提高了1.88%;与FCBF算法相比,本文算法所选择出的特征子集数平均减少了3.187 5个,平均分类准确率提高了0.825%;本文算法总体优于其他算法。  相似文献   

5.
为了得到一个低误分类代价的特征子集,本文通过定义样本间的代价距离并将代价距离引入了现有的特征选择架构,把流形学习和代价敏感特征选择问题相结合得到了一个新的代价敏感特征选择方法,称之为基于流形学习的代价敏感特征选择算法。以前提出的代价敏感特征选择算法在选择特征的过程中只考虑到了特征与误分类代价的关系,并对特征一个一个的进行选择,而本文所提出的代价敏感特征选择算法同时考虑了特征与误分类代价的关系和特征之间内在的判别信息,从而提高了代价敏感特征选择效果。在六个现实世界数据集上的实验证明了本文所提出的算法效果优于现有的相关算法。  相似文献   

6.
支持向量机(SVM)已经成为药物构效关系数据分析的一种常用统计方法,但其存在变量子集选择问题,且大量的冗余变量还可能影响SVM模型的预测精度,因此需要借助变量筛选来实现降维﹒本文提出了一种新的基于受试者工作特征曲线下面积(AUC)的支持向量机分类方法(AUC-SVM)﹒首先,计算出变量的AUC值;其次,利用AUC值和前向选择算法选择最具信息量的变量子集,并剔除数据中无关和冗余的变量;最后,以AUC作为提取变量重要性的标准,通过真实的药物构效关系数据集来评估AUC-SVM性能,并与传统SVM方法相比较﹒实证结果表明,AUC-SVM算法能明显提高分类预测性能﹒  相似文献   

7.
在机器学习中,特征选择是降低高维问题复杂性的有效方式之一。大多数特征选择算法是通过设计重要特征度量方法来提出备选特征序列,再根据序列选择特征子集。在此基础上,产生了划分特征子集作为独立空间学习的特征选择方法。然而,现有的空间划分机制多是人为切割原始特征空间得到的,鲜有人考虑因度量结果差异性导致的特征层次化现象,并以此划分空间。基于此,本文利用模糊互信息和有向无环图设计了一个分层模型,并提出了基于信息适应性分层粒化的多标签特征选择算法。同时,将获取的特征子集在标准多标签数据集上与多个先进算法进行对比实验,结果证明了本文算法的有效性。  相似文献   

8.
基于改进蚁群算法的高精度文本特征选择方法   总被引:1,自引:0,他引:1  
为了反映特征子集对分类结果的整体影响,去除噪声特征项,提出了一种基于改进蚁群算法的高精度文本特征选择方法。建立了特征选择数学模型,实现了特征选择过程与分类器分类过程间的直接关联;设计了特征优选与特征精选相结合的模型求解方案,降低了模型求解过程中的计算复杂度;提出了基于等效路径增强和局部搜索更新相结合的改进蚁群算法,提高了解的质量和稳定性。实验结果表明,与现有文本特征选择方法相比,该方法能大幅提升分类精度。  相似文献   

9.
机器学习领域中的特征选择算法可简化模型输入,提高可解释性并帮助避免维度灾难及过拟合现象的发生.针对基于封装法进行特征选择时,评价模型通常将搜索出的特征子集直接作为输入,导致算法对特征利用和评估效果受限于评价模型的特征学习能力,限制了对更适特征子集的发现能力等问题,提出一种基于级联森林结构的子集特征预学习封装法.该方法在搜索算法与评价模型之间添加多层级联森林,重构待评价特征子集为高级特征集,降低评价模型模式识别难度,提高对子集性能的评价效果.实验对比了多种搜索算法及评价模型组合,本方法可在保证分类性能的前提下,进一步降低所选特征数量,同时维持了封装法的低耦合性.   相似文献   

10.
针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行特征与类别、特征与特征的相关性分析,删除不相关特征及冗余特征以获得最优特征子集.实验结果表明:FCBF-NMI算法得到的最优特征子集更合理,平均分类正确率为89.68%,所用时间平均低至2.64s.  相似文献   

11.
互信息过滤式特征选择算法往往仅局限于互信息这一度量标准.为规避采取单一的互信息标准的局限性,在互信息的基础上引入基于距离度量的算法RReliefF,从而得出更好的过滤式准则.将RReliefF用于分类任务,度量特征与标签的相关性;应用最大互信息系数(maximal information coefficient,MIC)度量特征与特征之间的冗余性、特征与标签的相关性;最后,应用熵权法为MIC和RReliefF进行客观赋权,提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method, FFSBEWM).在13个数据集上进行对比实验,结果表明,FFSBEWM所选择的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法.  相似文献   

12.
足迹作为人体生物特征之一,在生物识别领域具有重要意义,而同一对象的不同鞋型压力足迹图像在足迹轮廓特征上具有显著性差异,导致其类内差异大。针对压力足迹图像的跨域检索,文中提出了一种基于互信息解耦表示的跨域压力足迹图像检索方法。首先,构建了一个包含200人足迹图像的多域压力足迹数据集,从定性和定量两个角度分析跨域压力足迹图像的特点;其次,采用两个独立的编码器实现图像解耦模块,该模块将压力足迹图像解耦为域特定表示和域共享表示,通过域分类法保证域特定表示包含更多域相关的信息;然后,通过最小化互信息损失扩大域特定表示和域共享表示之间的距离,同时,为避免解耦过程中信息的丢失,基于域特定表示和域共享表示重构原始压力足迹图像;最后,通过特征提取模块进一步提取域共享表示的深层卷积特征,经过度量模块计算不同特征间的关联度,从而实现跨域压力足迹图像检索。对比及消融实验结果表明,该方法的解耦模块具有一定的有效性,在多域压力足迹数据集上的性能表现良好,首位查询结果的检索准确率达到79.83%,平均准确率达到65.48%。  相似文献   

13.
Mutual information is an important information measure for feature subset. In this paper, a hashing mechanism is proposed to calculate the mutual information on the feature subset. Redundancy-synergy coefficient, a novel redundancy and synergy measure of features to express the class feature, is defined by mutual information. The information maximization rule was applied to derive the heuristic feature subset selection method based on mutual information and redundancy-synergy coefficient. Our experiment results showed the good performance of the new feature selection method.  相似文献   

14.
在基于惯性传感器人体行为识别的研究中,特征选择的作用是挑选相关特征,以提高分类性能,去除冗余特征以降低计算复杂度。针对传统的过滤式特征选择方法仅使用一种相关度量系数筛选特征效果不佳的问题,提出一种改进的基于最大相关与最小冗余(mRmR)准则的特征选择方法。该方法在基于mRmR准则下,采用多种相关度量系数融合的方式,在考虑分类类别的条件下,分析待挑选特征与已选特征间的相关性对特征筛选可能产生的积极影响,以去除部分冗余、不相关特征,进而得到初选特征子集;然后利用二进制数对筛选后的特征编码,通过遗传算法搜索最优或次优特征子集。分别使用SVM和KNN分类器对7种日常行为进行分类。实验结果表明,与其他几种方法相比,该方法对实验分类的7种行为有最高的总体平均识别精度,通过SVM和KNN分类的各行为总体平均识别精度分别达到了97.02%和95.73%,与传统的mRmR方法相比,分别提高了13.72%和9.92%。  相似文献   

15.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

16.
针对不同故障特征属性交互重叠导致的故障类别辨识困难问题,提出一种基于Manhattan距离作为特征之间相似度信息测度的权值判别拉普拉斯分值特征选择方法.该方法采用Manhattan距离衡量高维特征矢量之间的相似度,并将数据样本标记信息融入权值计算中以增强权值的判别性,提升了LS算法的敏感特征筛选性能.将M-WDLS和主成分分析相结合,提出基于M-WDLS和PCA的转子故障诊断方法.首先提取原始振动信号的时域、频域、时频域特征构造混合域特征集;然后利用M-WDLS选择敏感特征组成敏感特征矩阵;最后对敏感特征矩阵进行PCA降维处理,并将结果输入到K-近邻分类器中进行模式识别.对比实验的结果表明,该方法能有效提取转子系统振动信号的状态特征,有助于提高故障辨识的准确率.  相似文献   

17.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

18.
提出了一种由遗传算法和改进互信息公式相结合的特征选择方法.将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点.实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性.  相似文献   

19.
癫痫发作具有突发性和反复性,给患者的生命安全带来巨大隐患。为了给患者提供有效的预警,结合时间和空间两个维度,选取模糊熵和皮尔逊相关性作为特征参数,分别衡量时序信号复杂度和空间通道间的相关性; 利用F-score筛选出最优特征组合,既增加了预测的准确率又去除冗余信息; 利用支持向量机(support vector machine,SVM)分类器识别癫痫发作前期和发作间期的颅内脑电信号。为验证该特征的预测效果,进行了模糊熵或皮尔逊相关性单独作为特征参数的对比试验。实验结果表明,与单一特征相比,时空特征的预测效果更好,准确率高达91.26%,误报率仅为2.32%。该方法能有效提取癫痫特征信息,为癫痫的临床预警提供新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号