首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 104 毫秒
1.
朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented NaIeve Bayes)在许多情况下优于朴素贝叶斯分类器。然而,由于学习TAN所需的空间是数据属性个数的二次项级,限制了TAN对高维数据(如:文本数据)的分类,本文介绍了TAN模型及其一般的构造算法,提出一种新的TAN构造算法ITAN,该算法的空间复杂度是数据属性个数的线性级,最后将该算法用于文本分类,实验比较了朴素贝叶斯分类器和TAN分类器,实验结果表明:该方法具有较好的分类性能。  相似文献   

2.
一种基于改进互信息的文本分类方法   总被引:1,自引:0,他引:1  
用改进的互信息公式进行特征选择,通过三种文本分类方法验证了改进的公式具有较高的准确率、召回率和F1值,从而证明改进的互信息公式的有效性.  相似文献   

3.
针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age...  相似文献   

4.
基于类别核心词的朴素贝叶斯中文文本分类   总被引:5,自引:0,他引:5  
摘要及关键词中提取类别核心词,通过加权方式,强化它们在文本分类中的作用. 基于朴素贝叶斯分类方法的实验表明,提出的方法能够有效提高中文文本的分类准确率.  相似文献   

5.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

6.
一种基于TAN的文本分类方法   总被引:1,自引:3,他引:1  
提出了一种基于TAN模型的文本分类方法,朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented Naive Bayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争,介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能。  相似文献   

7.
一种改进的互信息特征选取预处理算法   总被引:3,自引:1,他引:3  
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。  相似文献   

8.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

9.
对3种常用的文本分类方法进行了分析和比较,并进行了对比实验,结果表明支持向量机是进行文本分类较好的方法.最后讨论了支持向量机在文本分类中存在的缺点.  相似文献   

10.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

11.
文本分类中特征选择方法的比较和改进   总被引:1,自引:1,他引:1  
考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性.  相似文献   

12.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

13.
提出一种第一特征选择的信息论方法.该方法考虑了第一特征和其他特征组合共同包含的类别信息.即使在非线性分类问题中也表现出良好的第一特征选择性能.  相似文献   

14.
基于互信息和文化基因算法的网络流量特征选择   总被引:1,自引:0,他引:1  
利用文化基因框架的引导,提出一种结合了封装和过滤的混合型特征选择算法.该算法在传统的遗传算法中采用了基于互信息的局部搜索算法,全局搜索以分类器精度为适应度函数,保证得到全局最优解;局部搜索以联合互信息为评价指标,加快了寻找最优特征子集的收敛速度.实验表明,与现有算法相比,该算法在特征数量和计算复杂度上有显著改进,采用该算法的网络流量识别方法能以更少的特征获得更高的分类精度.  相似文献   

15.
提出了一种由遗传算法和改进互信息公式相结合的特征选择方法.将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点.实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性.  相似文献   

16.
介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.  相似文献   

17.
特征选择在模式识别技术中起着非常重要的作用,用信息论的方法进行特征选择还是一个新课题.MIFS和MIFS-U是两种用信息论方法进行特征选择的近似算法,MIFS和MIFS-U算法都有一个考虑输入特征之间信息冗余的权重系数,MIFS-U算法还有一个条件限制.当条件不满足或权重系数取值不合适时,这两种算法的特征选择性能就会下降.通过研究这两种算法,借助互信息的概念提出一种新的信息论特征选择算法MIFS-D.和MIFS、MIFS-U算法相比,MIFS-D是一种更精确的算法,去掉了限制条件和权重系数.将3种算法应用于几个分类问题,结果表明MIFS-D算法具有相对更好的特征选择性能.  相似文献   

18.
文本分类特征选择是文本自动分类中首先要解决的重要问题。主要介绍了11种文本分类特征选择的方法,并选择其中的4种进行实验分析。实验结果说明:好的特征选择,对于提高文本分类的效率和效果至关重要。  相似文献   

19.
传统的互信息特征选择方法受边缘概率的影响较大,可能产生稀有词的概率评估分高于常用词的评估分,从而导致倾向于选择低频词条的现象.为此,在分析了几种传统的特征提取方法基础上,通过引入分散度及平均词频两个参数,将互信息方法与特征的词频相关联,从而使互信息的分类更加准确.实验结果表明,该方法使分类效果更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号