首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
特征选择是提高文本分类性能的一个重要手段.论文首先定义了两种特征贡献度:一个是特征对类间文档分散程度的贡献度,该贡献度越大越好;另一种是特征对类内文档分散程度的贡献度,该贡献度越小越好.然后把这两种特征贡献度有机地结合起来设计了一个新的特征选择方法,该方法能够对所选特征进行综合考虑,从而使获得的特征集具有较好的代表性.仿真实验表明:所提特征选择方法在一定程度上能够提高文本分类性能.  相似文献   

2.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

3.
用于监测刀具磨损的声发射(AE)特征优选方法   总被引:3,自引:0,他引:3  
研究合理选择声发射信号特征以实现实时监测刀具磨损量。利用模糊聚类特征优选方法对声发射传感器特征信息进行优选,并在此基础上给出了模糊聚类优声发射特征的一般结论。给出了声发射信号的模糊聚类优选方法的优选特征,并在实时检测刀具磨损量的实验中得到验证。实验表明,利用模糊聚类特征优选方法能有效地对刀具磨损监测中的声发射特征进行了优选。  相似文献   

4.
针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能.  相似文献   

5.
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗...  相似文献   

6.
为有效找出会议语音中的说话人角色个数及各角色的说话人语音,提出了一种多说话人角色聚类方法.首先定义说话人角色聚类的特征,然后采用测地距离度量特征的相似度,进而提出了一种利用类内距离来控制类间合并的多说话人角色聚类方法,最后采用4种不同类型的会议语音对该方法进行测试.结果表明:对手工分割和自动分割后的会议语音进行说话人角色聚类时,如果采用相同的聚类方法,则使用测地距离的性能优于使用传统距离的性能;如果采用相同的距离度量方法,则文中方法的性能优于传统层次聚类方法.  相似文献   

7.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

8.
将随机森林的相似度矩阵看做一种特殊的核度量,利用该度量对模型参数的鲁棒性和特征变化的敏感性,提出一种特征选择的方法.采用相似度矩阵,计算训练样本类内和类间相似性比率.再利用特征值随机置换技术,将相似性比率的变化量作为特征重要性度量指标,从而对所有特征进行排序.试验结果表明,该方法能充分利用全部样本的信息,有效地进行特征选择,且其性能优于基于袋外数据误差率估计的特征选择方法.  相似文献   

9.
基于特征向量子空间距离的MPC控制器性能诊断   总被引:1,自引:0,他引:1  
针对当前MPC控制器性能评价方法无法定位性能下降源的问题,提出一种基于子空间距离聚类的控制器性能诊断新方法.新方法引入特征向量子空间描述各性能类别的特征,建立子空间距离来度量当前实时数据和已知类别数据的相似性,以距离为度量函数确定监控数据对应的类别,定位引起MPC控制器性能下降的原因.在Wood.Berry塔上的仿真结果验证了新方法的有效性.  相似文献   

10.
互信息过滤式特征选择算法往往仅局限于互信息这一度量标准.为规避采取单一的互信息标准的局限性,在互信息的基础上引入基于距离度量的算法RReliefF,从而得出更好的过滤式准则.将RReliefF用于分类任务,度量特征与标签的相关性;应用最大互信息系数(maximal information coefficient,MIC)度量特征与特征之间的冗余性、特征与标签的相关性;最后,应用熵权法为MIC和RReliefF进行客观赋权,提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method, FFSBEWM).在13个数据集上进行对比实验,结果表明,FFSBEWM所选择的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法.  相似文献   

11.
人脸识别领域中常用Gabor小波系数表示人脸特征.然而,提取的人脸Gabor特征是高维数据,不可避免存在冗余和随机噪声的干扰.为了有效利用Gabor特征进行人脸识别,提出一种新的Gabor特征选取方法.首先计算训练集上的任两张人脸图像的Gabor特征差,生成类内空阃和类外空间.用单个Gabor特征训练筒单两值分类器,以其在类内空间和类外空间的分类错误率作为判据评价该Gabor特征的分类能力.在选取分类错误低的特征的同时还要再评估候选特征与已选特征间的互信息,这样优选出具有无冗余、低误差率的特征.最后对这些优选的Gabor特征进行主成分分析和线性判别分析完成人脸识别.在CAS-PEAL大型人脸数据库上的实验结果表明,所提出的方法不但可大大降低Gabor特征的维数,而且还有效提高了识别精度.  相似文献   

12.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

13.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

14.
针对机器学习聚类模型在特征选择时存在的问题,首先,对特征选择在聚类模型中的适用性进行分析并对其进行调整和改进.然后,基于R语言中的递归特征消除(RFE)特征选择方法和Boruta特征选择方法进行特征选择算法设计.最后,应用聚类内部有效性指标,对在线品牌忠诚度聚类模型优化结果进行分析,进而对特征选择方法进行比较研究.结果表明:Boruta特征选择方法更具优势.  相似文献   

15.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用.  相似文献   

16.
针对距离判别法在处理复杂数据时的不足,提出了一种新的判别方法.该方法通过对各个总体的特征识别,确定其特征个数,并结合动态聚类的方法确定各个总体的特征点.然后采用近邻原则建立判别模型,对样品的属类做出判别.实例表明,该方法的判别效果良好.  相似文献   

17.
研究预滤波、二进制集的划界、降维和查询优化的距离计算 ,并在 40 0 0幅测试图像集上 ,采用实验方法对高维直方图的索引策略与优化查询的距离计算进行了评估 .研究表明 ,非二次形式的距离度量与二次形式的距离度量一样有良好的性能 .此外 ,二进制集是直方图的一种有效而简捷的替代方法 ,其检索性能足以满足第一遍查询 .  相似文献   

18.
针对二值商标图像,提出了一种基于极坐标系投影特征的检索方法.利用商标图像在极坐标系的水平投影特征及垂直投影特征来描述商标图像的形状特征,利用投影特征向量的欧拉距离来度量图像的相似性程度.实验结果证明采用此方法具有良好的平移、旋转及尺度不变性,具有很好的检索精度.  相似文献   

19.
由于在评价冗余特征时只考虑对称不确定性或最大信息系数等某一种度量标准,使得现有的一些特征子集选择算法存在性能不理想的问题.针对该问题,提出了一种基于对称不确定性和三路交互信息的特征子集选择算法.首先,计算特征与类标签的对称不确定性,按照其值大小对特征作降序排序处理,并消除不相关特征;然后,计算特征间的对称不确定性以及特...  相似文献   

20.
高维聚类中的一种特征筛选方法   总被引:3,自引:0,他引:3       下载免费PDF全文
聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号