首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 843 毫秒
1.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

2.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

3.
已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:①可以使用两步策略分类方法的分类器须满足的条件;②3种理论上可用两步策略进行文本分类的分类器;③实验比较Rocchio、朴素贝叶斯、KNN 3种分类器两两组合后应用于多类英语文本分类的效果.实验结果表明:Rocchio...  相似文献   

4.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

5.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

6.
为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越.  相似文献   

7.
一种新颖的基于马氏距离的文本分类方法的研究   总被引:1,自引:0,他引:1  
KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一.该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用.因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahala...  相似文献   

8.
基于演化超网络的中文文本分类方法   总被引:2,自引:0,他引:2  
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.  相似文献   

9.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

10.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

11.
多策略中文微博细粒度情绪分析研究   总被引:1,自引:0,他引:1  
针对中文微博用户的情绪分析问题, 提出一种基于多策略融合的细粒度情绪分析方法。首先采用朴素贝叶斯算法对微博的有无情绪分类问题进行研究, 然后构建有情绪微博的21维特征向量, 最后采用SVM和KNN算法对微博进行细粒度情绪分析。以新浪微博作为实验对象, 结果表明多策略集成方法好于单一分类 算法。在多策略集成方法中, “NB+SVM”方法略优于“NB+KNN”方法。  相似文献   

12.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

13.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

14.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

15.
针对KNN的K值难以确定的问题,提出一种基于并行遗传算法的KNN分类方法.该方法采用粗粒度模型的并行遗传算法进行设计,通过种群内的遗传、变异和种群间的并行进化、联姻得到优化的K值和分类结果.实验结果表明,该方法有效的提高了KNN算法的分类效果,是一种精确高效的分类方法.  相似文献   

16.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

17.
基于Fisherface和组合KNN分类器的人脸识别算法   总被引:1,自引:0,他引:1  
基于Fisherfaee和组合K近邻(KNN)分类方法的人脸识别算法首先采用Fisherfaee进行特征提取,构成特征空间。然后,利用组合KNN分类器对提取的特征进行识别。在ORL人脸数据库上的实验结果表明该方法具有良好的性能。  相似文献   

18.
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号