期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张杰战学刚冯金平陈文亮《鞍山科技大学学报》2005,(4):231-234,238

对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些. 相似文献

2.

中文文本分类器的评价

张杰战学刚冯金平陈文亮《鞍山科技大学学报》2005,28(3):231-234,238

对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价，其中，Naive Bayes和最大熵是基于概率统计的方法，而Rocchio和KNN是基于向量的相似度计算的方法。选用X2作为文本特征选取方法，对一个中文文本分类语料库进行分类评测。实验结果表明，最大熵和Naive Bayes的分类性能十分接近，处于较好水平，而KNN和Rocchio分类性能稍差一些。相似文献

3.

中文文本分类器的评价

张杰战学刚冯金平陈文亮《鞍山科技大学学报》2005,(Z1)

对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。相似文献

4.

基于两步策略的文本分类方法实验研究

何泉昊樊兴华周鹏《广西师范大学学报(自然科学版)》2011,29(4):35-38

已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:①可以使用两步策略分类方法的分类器须满足的条件;②3种理论上可用两步策略进行文本分类的分类器;③实验比较Rocchio、朴素贝叶斯、KNN 3种分类器两两组合后应用于多类英语文本分类的效果.实验结果表明:Rocchio... 相似文献

5.

基于信息提取的面向行业应用文本分类算法

郭峰徐玉生陈晓云王颖《清华大学学报(自然科学版)》2005,45(9):1810-1813

目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法. 相似文献

6.

中文文本分类研究

郝晓燕常晓明《太原理工大学学报》2006,37(6):710-713

使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。相似文献

7.

基于两步策略的中文短文本分类研究 总被引：3，自引：0，他引：3

樊兴华王鹏《大连海事大学学报(自然科学版)》2008,34(3)

为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能. 相似文献

8.

KNN文本分类算法中的特征选取方法研究 总被引：1，自引：0，他引：1

曹勇吴顺祥《科技信息》2006,(12):26-28

对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果. 相似文献

9.

Naive Bayes算法在垃圾邮件过滤系统中的应用与改进 总被引：1，自引：0，他引：1

刘信杰李艳胡学钢《潍坊学院学报》2007,7(6):26-27,49

垃圾邮件是Internet上普遍面临的问题,Naive Bayes算法由于其简单高效性在文本分类中应用较广。文章重点阐述了Naive Bayes算法在基于内容的垃圾邮件过滤中的应用及改进,并进行了实验,获得了良好的分类效果,实验论证了它在垃圾邮件过滤中的可行性和有效性。相似文献

10.

一种基于Agent-NB的文本分类模型和算法

胡春娜刘显德郝兴《哈尔滨商业大学学报(自然科学版)》2011,27(1):103-106

针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age... 相似文献