首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 99 毫秒
1.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

2.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

3.
基于遗传算法的文本聚类特征选择   总被引:3,自引:0,他引:3  
传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9%,而聚类时间减少了15 s.  相似文献   

4.
现有过滤式特征选择模型采用贪心策略结合互信息评价特征子集,容易陷入局部最优陷阱.考虑标签信息对冗余度的影响,利用一种改进的MIFS-U方法在给定标签的条件下衡量冗余度,采用基于分解的多目标优化框架结合引入多项式突变的差分进化算子进行全局搜索,避免搜索陷入局部最优.引入l1正则化项来保证特征子集的稀疏性,并提出了新的特征选择算法MOEA/D-DEFS.实验阶段使用knn-5分类器来验证学习效果,并在多组来自不同领域的数据集上进行测试.结果表明,将特征选择视为多目标问题采用全局搜索策略搜索可以在特征子集维度和分类准确性方面提供更好的性能.  相似文献   

5.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

6.
基于谱图的无监督特征选择方法在原始高维空间构建图,易受噪声或冗余特征干扰.为此提出一种基于自适应局部保持投影的无监督特征选择方法,利用全局线性回归函数建立特征选择模型,结合自适应局部保持投影提高模型准确度,引入l2,1约束提升特征之间可区分度,避免噪声干扰.最后通过实验验证了该方法的有效性.  相似文献   

7.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

8.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

9.
网络中异常流量的有效检测对网络安全至关重要.以机器学习方法为主的异常流量检测技术,对流量数据采用特征选择方法进行降维并提取最优特征,但容易忽略数据特征之间的关联性,存在异常流量的检测率低、误报率高等问题.为了提高异常流量检测性能,论文在提取流量数据特征的过程中引入自注意力机制进行相关性学习,并结合深度卷积神经网络提出一种有效的网络流量异常检测模型.实验结果表明:通过引入自注意力机制,论文所提出的检测方法能够提取更准确的流量特征,并使得异常流量检测率高、误报率低.  相似文献   

10.
基于云模型的文本特征自动提取算法   总被引:1,自引:0,他引:1  
在综合考虑特征整体与局部分布基础上,提出一种高性能的文本特征自动提取算法.算法引入云隶属度概念对特征分布进行修正,不需任何先验知识,能根据特征分布特点自动获取云隶属度高的特征集.实验结果表明:该特征集具有特征个数少、分类精度高的特点,性能明显比当前主要的特征选择方法的性能优.  相似文献   

11.
提出了一种由遗传算法和改进互信息公式相结合的特征选择方法.将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点.实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性.  相似文献   

12.
针对机器学习聚类模型在特征选择时存在的问题,首先,对特征选择在聚类模型中的适用性进行分析并对其进行调整和改进.然后,基于R语言中的递归特征消除(RFE)特征选择方法和Boruta特征选择方法进行特征选择算法设计.最后,应用聚类内部有效性指标,对在线品牌忠诚度聚类模型优化结果进行分析,进而对特征选择方法进行比较研究.结果表明:Boruta特征选择方法更具优势.  相似文献   

13.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

14.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

15.
符红霞  黄成兵 《科学技术与工程》2012,12(34):9234-9237,9242
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先分析了词频和文档频并在此基础上对文档频进行优化。然后又以此为基础提出了特征分辨率并先用它初选文本特征。紧接着又把粗糙集引入进来并给出了一个基于等价类相关矩阵的属性约简算法,以此来进一步消除冗余特征。仿真结果表明上述方法无论是在精确度和召回率方面,还是时间性能及平均分类精度方面,都具有一定的优势。  相似文献   

16.
针对多尺度目标检测中特征图特征混淆和特征丰富程度不足的问题,提出一种基于多尺度特征选择与融合的目标检测算法。设计了一个特征选择模块来分离出不相关的特征,并结合特征金字塔网络形成特征选择网络结构,降低特征图中不同尺度目标的局部特征对当前尺度特征的干扰;提出一种浅层特征融合方法,将浅层特征逐级融合到较深层级特征中,解决特征图的特征不够丰富问题。结合特征选择架构和浅层特征融合架构,在PASCAL-VOC2007数据集上进行测试,结果mAP达到了80.1%。相较于基础的单阶段目标检测(single shot detection,SSD),所提算法的网络性能可提高2.9%,且在一些小目标和遮挡目标的检测效果上有明显的提升。通过对比和消融实验,证明了所提方法的有效性。  相似文献   

17.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

18.
根据经典的特征选择方法在中文情感评论文本中应用的缺陷和不足,提出了一种改进的中文情感特征选择方法.目前,现有的情感特征选择方法普遍只利用了特征项在褒贬类中的统计信息,忽略了情感极性值对特征选择的影响;同时情感文本中否定词会带来特征项情感极性反转的情况,为特征选择带来较大的负面影响.针对这些问题,首先对情感文本中的否定词进行了检测和判定,对否定词界定范围内的情感特征词进行反义变换处理,有效的解决了情感文本中极性反转的问题.同时还将特征项的情感极性值和其在类中的频率特点两个因素融入到卡方特征选择模型(CHI)中,从而提升了卡方模型在文本情感特征选择的效果.实验结果表明,本文算法较其他算法在多个领域数据集上的情感分类准确率提高了1.5%左右.  相似文献   

19.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号