首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
一种基于改进互信息的文本分类方法   总被引:1,自引:0,他引:1  
用改进的互信息公式进行特征选择,通过三种文本分类方法验证了改进的公式具有较高的准确率、召回率和F1值,从而证明改进的互信息公式的有效性.  相似文献   

2.
文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。  相似文献   

3.
一种基于TAN的文本分类方法   总被引:1,自引:3,他引:1  
提出了一种基于TAN模型的文本分类方法,朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented Naive Bayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争,介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能。  相似文献   

4.
提出了一种基于特征项扩展的中文文本分类方法.该方法首先对文档的特征词进行分析,然后利用HowNet抽取最能代表主题的特征义原,接着根据这些义原对特征项进行扩展,并赋予扩展的特征项适当权值来说明其描述能力.最后利用扩展的特征项集提取特征进行分类.该文重点研究了如何抽取特征义原,如何给扩展项设定一个合适的权值.实验证明,该文方法能增加有效的特征项的数目,使分类正确率和稳定性均得到提高.  相似文献   

5.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

6.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

7.
针对文本分类问题,将朴素贝叶斯分类与自组织特征映射网络分类相结合,提出了基于相对特征的文本分类算法.该算法具有很快的速度和较高的准确率,从而为构建高效的搜索引擎提供支撑.  相似文献   

8.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

9.
苟和平 《科学技术与工程》2012,12(20):4926-4929
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。  相似文献   

10.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

11.
改进的简单贝叶斯文本分类   总被引:5,自引:0,他引:5  
对简单贝叶斯分类中的条件概率加权因子进行了改进,引进了体现词语分类贡献大小的类别区别度,新的加权方法为频率与类别区别度的乘积,既强调了区别度高的词语,降低了常见词的影响,又体现了区别度高的词语频次的积极作用.实验证明,在约3万篇测试集上(共15个大类,244个小类),该改进比原来的加权方法提高了分类效果:大类和小类微平均分别提高了约18.9%和7.6%.  相似文献   

12.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

13.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

14.
低时空复杂度始终是多类别文本分类算法希望达到的性能。新闻文档集中Token频率分布的研究再次验证了Token频率分布普遍服从幂律。据此设计了一种新的多类别Token频率索引数据结构,并基于该数据结构提出了一种低时空复杂度的多类别文本分类算法。在TanCorp数据集上的实验结果表明该算法在多类别新闻文档分类应用中是时空高效的。  相似文献   

15.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

16.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

17.
采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.  相似文献   

18.
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

19.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

20.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号