首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

2.
采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.  相似文献   

3.
朴素贝叶斯分类器是一种简单有效的文本分类方法.改进方法利用同义词对文本的特征词集进行过滤,在一定程度上放松了朴素贝叶斯的特征独立性假设;在特征选择时迭代了2种不同的特征选择方法,有效地提高了特征集的代表性.实验结果表明,本方法有效地提高了朴素贝叶斯分类器的性能.  相似文献   

4.
在传统贝叶斯分类方法基础上,通过计算每个超1-依赖分类器与其相对应的朴素贝叶斯分类器的差异性来对超1-依赖分类器进行加权,提出一种超1-依赖分类器的度量方法,并将该算法运用到Dewetron燃烧分析仪采集到的柴油机故障数据分类诊断中.实验证明,该算法在柴油机故障检测上较传统加权超1-依赖算法有较稳定的精度提升.  相似文献   

5.
利用加权核Fisher准则,给出一种朴素贝叶斯分类器的改进算法。该算法通过寻找使类与类最大分离的最优投影矩阵,将样本数据进行投影变换,再利用朴素贝叶斯分类器对新样本进行分类。将该方法应用于双酚A生产过程在线监测数据集的分类中,仿真结果表明,相比于单纯朴素贝叶斯分类器,该分类算法具有更好的分类性能。  相似文献   

6.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

7.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类。为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词;针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

8.
提出一种基于二阶隐马尔可夫模型(HMM)的新闻分类算法,旨在提取新闻内容中的类别字,构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列,二阶HMM的隐藏状态反映了文档中词语之间的相关性差异,每个状态表示出现在语料库中的词语的相关性水平.实验结果表明,相比k近邻(k NN)、朴素贝叶斯(Naive Bayes)以及支持向量机(SVM)算法,二阶HMM算法的分类表现更显优势.  相似文献   

9.
朴素贝叶斯算法因其分类精度高、模型简单等优点而被得到普遍应用,但因为它需要具备很强的属性之间的条件独立性假设,使得其在实际分类学习中很难实现.针对这个缺点,提出了一种基于遗传算法的加权朴素贝叶斯分类算法(G_WNB).该算法将遗传算法(GA)与加权朴素贝叶斯分类算法(WNB)相结合,首先使用基于Rough Set的加权朴素贝叶斯分类算法,综合信息论与代数论给出的属性权值求解方法,计算出每个属性的权值,以初始权值作为初始种群,加权朴素贝叶斯的分类正确率为适应度函数,采用遗传算法优选,以使适应度函数最高的权值为数据集的最终权值,最后使用G_WNB进行分类.实验表明,该算法提高了分类准确率,同时提高了朴素贝叶斯分类器的性能.  相似文献   

10.
一种基于TAN的文本分类方法   总被引:1,自引:3,他引:1  
提出了一种基于TAN模型的文本分类方法,朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented Naive Bayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争,介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能。  相似文献   

11.
朴素贝叶斯分类器是一种简单而高效的分类器,但它的条件独立性假设使其无法将属性间的依赖关系表达出来,影响了它分类的正确率,加权朴素贝叶斯是对它的一种扩展.基于强属性限定的贝叶斯分类器SANBC,通过在强弱属性之间添加增强弧以弱化朴素贝叶斯的独立性假设,扩展了朴素贝叶斯分类器的结构;结合加权朴素贝叶斯和基于强属性限定的贝叶斯分类器SANBC的优点,提出一种基于强属性限定的加权贝叶斯分类器WSANBC;实验结果表明,WSANBC分类器具有较高的分类正确率.  相似文献   

12.
通过对朴素贝叶斯分类器的讨论, 提出将贝叶斯方法应用于医学图像分割后的图像分类思想. 给出一种基于朴素贝叶斯分类器的图像分类方法, 对从尿沉渣图像中识别出的微粒进行正确分割及特征提取与选择, 并利用朴素贝叶斯分类器进行分类. 实验结果表明, 所提出的方法用于解决图像分类有效.  相似文献   

13.
基于权值调整的文本分类改进方法   总被引:14,自引:0,他引:14  
文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。  相似文献   

14.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

15.
一种基于粗糙集的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3  
朴素贝叶斯分类器的计算过程只有在完全数据库中才成立,而基于相似关系的粗糙集模型具有处理空值的功能,并且提供了属性离散化和约简技术,可以改善属性间的依赖关系。因此,将两种不同的软计算方法相结合,利用粗糙集合理论先把决策表补齐,再对数据进行约简,然后结合朴素贝叶斯分类器,得出分类结果。实验证明这种方法不仅简化了数据和模型的规模,也具有对不完全数据的分类能力。  相似文献   

16.
朴素贝叶斯分类方法是一种广泛使用的分类算法,在独立性假设不完全满足的情况下计算效率和分类效果均较为理想.通过分析全局特征向量中各特征与类别属性之间的联系,提出将组合特征置换多源特征,用组合特征的共现率对多源特征进行概率调整的新方法,在不同数据集的实验中,调整后的朴素贝叶斯分类器(FRNB)的分类精度均好于传统朴素贝叶斯分类器.测试结果表明,改进后的算法是有效可行的.  相似文献   

17.
针对朴素贝叶斯分类器不能有效利用属性之间依赖信息的问题,在将连续属性条件互信息计算、条件密度计算与通过建立类约束属性最大权重跨度树的父结点选择相结合的基础上,提出了连续属性朴素贝叶斯分类器选择性树结构依赖扩展方法.通过对比实验和分析,证实了扩展后分类器的分类准确率得到明显的改进.  相似文献   

18.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

19.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

20.
基于贝叶斯网络的分类器研究   总被引:28,自引:2,他引:28  
研究了贝叶斯分类器家族中具有代表性的分类器,即朴素(naIve)贝叶斯分类器、贝叶斯网络分类器和TAN(tree augmented Bayesian)分类器;发现属性变量之间的依赖相对于属性变量与类变量之间的依赖是可以忽略的,因此在所有树形分类器中TAN分类器是最优的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号