首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

2.
针对文本向量空间中特征项间的关联性及冗余性,提出了一种KNN算法运用于文本向量空间降维的方法,应用向量聚合理论和特征选择以降低特征空间维数,使得降维后的特征项更具有类别代表性.实验证明,KNN算法运用于文本降维方法中,有效地降低了向量空间的维数,提高了文本分类的精度.  相似文献   

3.
基于知网语义相似度计算的特征降维方法研究   总被引:8,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

4.
文本聚类的关键是对高维的特征集进行降维.本文对常用的一些特征选择、特征抽取等主流特征降维方法进行了介绍,分析了它们各自的特点及其适用范围.  相似文献   

5.
基于多元图形特征融合原理的降维方法研究   总被引:1,自引:0,他引:1  
降维是将高维模式映射到低维子空间的过程.在降维后的低维子空间进行分类往往能得到更好的效果.本文以高维数据为研究对象,采用多元描述图对高维数据进行可视化表达,采用多元图图形特征融合的方法对高维数据进行降维,用K邻分类器进行分类效果评价.与Fisher线性判别及其他一些常用非线性降维方法相比,本文所提方法在数据的可视化以及分类精度等方面均有较好效果.  相似文献   

6.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

7.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

8.
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-...  相似文献   

9.
在互相关性未知的分布式融合系统中,协方差交集算法是一种有效的融合算法,但其在融合高维航迹时存在计算量大、精度低的问题,为此对高维航迹进行了降维处理,把高维航迹的融合变为多组二维航迹的融合,从而得到了一种降维的协方差交集算法(Dimensionality Reduction Intersection Algorithm,DRCI)。理论分析表明该算法能有效降低运算量,仿真实验结果表明,该算法的精度高于协方差交集算法(Covariance Intersection,CI),与Kalman融合算法处于同一水平。  相似文献   

10.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

11.
提出了一种基于特征项扩展的中文文本分类方法.该方法首先对文档的特征词进行分析,然后利用HowNet抽取最能代表主题的特征义原,接着根据这些义原对特征项进行扩展,并赋予扩展的特征项适当权值来说明其描述能力.最后利用扩展的特征项集提取特征进行分类.该文重点研究了如何抽取特征义原,如何给扩展项设定一个合适的权值.实验证明,该文方法能增加有效的特征项的数目,使分类正确率和稳定性均得到提高.  相似文献   

12.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

13.
为提高正确识别率,将Eigenfaces、EigenUpper、EigenTzone和二阶特征脸法四种方法的初步识别结果先模糊化,然后采用模糊综合函数加权组合后获取新的距离函数以得出最终的识别结果.通过针对ORL数据库的实验表明,应用多特征模糊加权算法进行人脸识别是行之有效的.  相似文献   

14.
针对文本分类问题,将朴素贝叶斯分类与自组织特征映射网络分类相结合,提出了基于相对特征的文本分类算法.该算法具有很快的速度和较高的准确率,从而为构建高效的搜索引擎提供支撑.  相似文献   

15.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

16.
针对以往手势识别研究中更关注识别率而弱化实时性的情况,首次将偏最小二乘降维思想引入手势识别领域,提出一种基于特征联合和偏最小二乘降维的手势识别方法。首先进行手势分割,在此基础上提取手势样本的梯度方向直方图和局部二值模式特征,并将二者进行联合。然后采用偏最小二乘法对手势联合特征进行降维,并将降维后的手势训练样本特征输入到支持向量机中进行分类训练。最后用训练好的支持向量机对降维后的手势测试样本进行识别测试。基于Jochen Triesch手势库及自制手势库的实验结果表明,同已有方法相比,本文所提方法在取得较高手势识别率的同时也取得了较好的实时性。  相似文献   

17.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

18.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。  相似文献   

19.
基于改进蚁群算法的高精度文本特征选择方法   总被引:1,自引:0,他引:1  
为了反映特征子集对分类结果的整体影响,去除噪声特征项,提出了一种基于改进蚁群算法的高精度文本特征选择方法。建立了特征选择数学模型,实现了特征选择过程与分类器分类过程间的直接关联;设计了特征优选与特征精选相结合的模型求解方案,降低了模型求解过程中的计算复杂度;提出了基于等效路径增强和局部搜索更新相结合的改进蚁群算法,提高了解的质量和稳定性。实验结果表明,与现有文本特征选择方法相比,该方法能大幅提升分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号