首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

2.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用X2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

3.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

4.
已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:①可以使用两步策略分类方法的分类器须满足的条件;②3种理论上可用两步策略进行文本分类的分类器;③实验比较Rocchio、朴素贝叶斯、KNN 3种分类器两两组合后应用于多类英语文本分类的效果.实验结果表明:Rocchio...  相似文献   

5.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

6.
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。  相似文献   

7.
基于两步策略的中文短文本分类研究   总被引:3,自引:0,他引:3  
为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能.  相似文献   

8.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

9.
Naive Bayes算法在垃圾邮件过滤系统中的应用与改进   总被引:1,自引:0,他引:1  
垃圾邮件是Internet上普遍面临的问题,Naive Bayes算法由于其简单高效性在文本分类中应用较广。文章重点阐述了Naive Bayes算法在基于内容的垃圾邮件过滤中的应用及改进,并进行了实验,获得了良好的分类效果,实验论证了它在垃圾邮件过滤中的可行性和有效性。  相似文献   

10.
针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age...  相似文献   

11.
针对电影影评语句短小、特征矩阵稀疏问题,提出一种利用本体扩展特征矩阵的方法。首先通过传统与新型文本分类方法的比较和分析,发现适合中文短影评的分类方法,并通过试验证明决策树的短文本分类效果优于SVM、Bayes和KNN等文本分类方法,然后进一步利用决策树分类本体扩展后的特征向量。试验表明,基于本体扩展的中文短影评的分类效果比传统的分类效果提高3%,查准率达到90.1%。  相似文献   

12.
基于演化超网络的中文文本分类方法   总被引:2,自引:0,他引:2  
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.  相似文献   

13.
一种基于TAN的文本分类方法   总被引:1,自引:3,他引:1  
提出了一种基于TAN模型的文本分类方法,朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented Naive Bayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争,介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能。  相似文献   

14.
训练集类别分布对文本分类的影响   总被引:11,自引:0,他引:11  
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%.实验结果显示,类别均衡法显著提高了分类性能.  相似文献   

15.
针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高.  相似文献   

16.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

17.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

18.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

19.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

20.
信度网分类器   总被引:4,自引:0,他引:4  
分类问题是人工智能中机器学习研究的一个重要问题,它在模式识别、故障诊断以及数据挖掘等领域有着广泛的应用。利用信度网可以构造出分类性能更好的分类器。文章着重探讨了Naive Bayes分类器,增强的Naive Bayes分类器和通用信度网分类器的构造方法,并分析比较了这三类分类器的优缺点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号