首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

2.
为了提高朴素贝叶斯算法的复合语言文本分类准确度和效率,将加权朴素贝叶斯算法用于复合语言文本分类,采用量子遗传算法对权重参数进行优化;根据贝叶斯定理建立语言文本分类模型,考查样本属性之间的差异对分类结果的影响;然后引入属性权重,形成加权朴素贝叶斯文本分类模型;利用遗传算法对权重参数进行优化,借助量子比特运算提高遗传优化效...  相似文献   

3.
在原有中医药冠心病临床治疗数据采集系统的基础上,使用中医证型的辨证相关因素,提出属性加权朴素贝叶斯算法,并应用到冠心病中医证型的分类模型之中.实验结果显示,对于冠心病4种证型的分类,运用属性加权朴素贝叶斯分类算法都略高于朴素贝叶斯分类算法.实验结果表明属性加权朴素贝叶斯分类算法在中医冠心病临床诊断中具有良好的分类性能.  相似文献   

4.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

5.
一种应用关联规则森林的改进贝叶斯分类算法   总被引:1,自引:0,他引:1  
针对朴素贝叶斯分类方法中属性值条件独立假设不适应实际情况的问题,提出了关联规则森林表示法及应用关联规则森林的改进贝叶斯分类算法(ABC算法).ABC算法利用关联规则挖掘得到满足条件的关联规则,并由此来构造关联规则森林,而规则森林中所有根节点的概率与所有适用的规则置信度连乘,就得到所有属性值的联合概率.应用UDI数据集对分类器进行了测试,分类结果表明,ABC算法的分类准确率明显高于朴素贝叶斯分类算法,平均提高5%,特别是对属性间有着较强依赖关系的数据集,其分类准确率提高了37%.  相似文献   

6.
利用加权核Fisher准则,给出一种朴素贝叶斯分类器的改进算法。该算法通过寻找使类与类最大分离的最优投影矩阵,将样本数据进行投影变换,再利用朴素贝叶斯分类器对新样本进行分类。将该方法应用于双酚A生产过程在线监测数据集的分类中,仿真结果表明,相比于单纯朴素贝叶斯分类器,该分类算法具有更好的分类性能。  相似文献   

7.
提出一种基于多重假设检验的特征加权朴素贝叶斯分类算法, 该算法通过特征选择方法得到多个特征词集合, 再按多重假设检验错误率为每个特征词集合配以不同的权重系数并参与到分类器的构建中. 该方法已经应用到市长公开电话的文本分类中, 通过构建的3个特征加权朴素贝叶斯分类器实现了投诉文本的计算机自动分类, 且相对传统方法提高了分类器的效率和精度.  相似文献   

8.
朴素贝叶斯算法因其分类精度高、模型简单等优点而被得到普遍应用,但因为它需要具备很强的属性之间的条件独立性假设,使得其在实际分类学习中很难实现.针对这个缺点,提出了一种基于遗传算法的加权朴素贝叶斯分类算法(G_WNB).该算法将遗传算法(GA)与加权朴素贝叶斯分类算法(WNB)相结合,首先使用基于Rough Set的加权朴素贝叶斯分类算法,综合信息论与代数论给出的属性权值求解方法,计算出每个属性的权值,以初始权值作为初始种群,加权朴素贝叶斯的分类正确率为适应度函数,采用遗传算法优选,以使适应度函数最高的权值为数据集的最终权值,最后使用G_WNB进行分类.实验表明,该算法提高了分类准确率,同时提高了朴素贝叶斯分类器的性能.  相似文献   

9.
朴素贝叶斯在处理分类问题上简单高效,通常它假设属性间是条件独立的,且各属性变量对类变量的影响程度是相同的,但在实际应用中这些都难以被满足,从而使得其分类性能降低.因此,提出基于属性约简的加权朴素贝叶斯分类算法,该算法首先根据各属性不同取值的分类能力及属性间的对称不确定性大小,去除了无关属性和冗余属性,使得筛选后的属性之间具有较低的关联度和较强的分类能力;然后再结合属性与类变量及属性间的相关性对各属性进行加权;最后对待判样本进行分类.经实验结果表明,该算法有效地提升了朴素贝叶斯的分类性能.  相似文献   

10.
基于相关系数的加权朴素贝叶斯分类算法   总被引:7,自引:0,他引:7  
朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.首先给出了基于相关系数的属性权值求解方法,然后描述了相应的算法,并对算法原理进行了分析与证明.通过在中医小儿肺炎病例数据集和UCI数据集上的仿真实验,验证了该方法的有效性.  相似文献   

11.
朴素贝叶斯分类是一种简单高效的方法.但是当属性独立性假设不成立时,有可能导致待测样本类别判断错误;且当待测样本到各类别的概率相同时,无法判断该样本类别,从而影响了它的分类准确率.本文提出基于属性值贡献率的朴素贝叶斯改进算法,利用待测样本的各个属性值在各类别的总贡献率判别该样本的类别.在蘑菇数据实验结果表明,该算法能有效提高分类的准确率.  相似文献   

12.
朴素贝叶斯算法是一种简单而高效的分类算法,但是它的条件独立性假设和数据完备性要求,影响了其分类性能;在此提出了一种基于EM算法和偏最小二乘的加权朴素贝叶斯分类算法,实验结果验证了该算法的有效性.  相似文献   

13.
基于属性约简的PLS加权朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯算法是一种简单而高效的分类算法,它的属性独立性假设,影响了它的分类性能.针对这种问题,在分析属性相关性的基础上,通过属性约简选择一组近似独立的属性约简子集,提出一种基于属性约简的偏最小二乘回归加权朴素贝叶斯分类算法.对不同的条件属性给予不同的权值,从而在保持简单性的基础上有效地提高了朴素贝叶斯分类算法的分类性能.实验结果表明,该方法可行且有效.  相似文献   

14.
朴素贝叶斯分类器是一种简单而高效的分类器,但它的条件独立性假设影响了它分类的正确率.加权朴素贝叶斯是对它的一种扩展.通过分析属性相关性的度量和属性约简,选择一组最近似独立的属性约简子集,并结合加权朴素贝叶斯和选择性贝叶斯分类器的优点,提出一种选择性的加权贝叶斯分类器SWNBC.实验结果表明,与朴素贝叶斯分类器相比,WSANBC分类器具有较高的分类正确率.  相似文献   

15.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

16.
为解决文本情感分类准确率不高的问题,提出了一种特征加权融合的朴素贝叶斯情感分类算法.通过分析单个情感词对文本情感分类的贡献度特征,根据情感词对文本情感贡献度的权值调整贝叶斯模型的后验概率;将文本中所有相同极性的情感词作为一个特征整体,根据特征整体对文本情感贡献度的权值调整贝叶斯模型的整体概率.为了进一步提高分类的准确率以及提升分类模型的综合性能,将两种加权方式同时与朴素贝叶斯模型结合.结果表明,融合后的方法在数据集上的整体平均查准率、查全率分别提高1.83%和3.42%,平均F1值提高了2.76%.  相似文献   

17.
朴素贝叶斯模型具有的简单性和有效性,使其在诸多问题领域表现出优良的性能,但其属性条件独立性假设在实际应用中难以成立.而属性加权是降低属性条件独立性假设对分类器性能影响的主要途径.传统建立在整个数据集上的单一全局模型忽略了每个测试实例所具有的特点,同时从整个训练集上学习到的属性权重并不能准确反映每个属性对待分类实例的影响.为此提出一种基于数据驱动的懒惰式局部属性加权方法,它在每个测试实例的近邻集合上学习属性权重,并通过最优化方法建立相应的局部属性加权朴素贝叶斯模型.实验结果表明:和当前常见的准朴素贝叶斯模型相比,本文模型具有较高的分类准确率.  相似文献   

18.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

19.
朴素贝叶斯分类算法是一种简单并且高效的分类算法,但条件独立性假设在现实中很难满足,导致其性能有所下降.为了解决该问题,本文在关联规则和置信度的基础上对该分类算法进行了改进.通过挖掘出来的关联规则和该规则的置信度,对不同的属性赋予不同的权重,同时实现了该分类算法的MapReduce化,从而在保持简单性的基础上有效地提高了朴素贝叶斯分类算法的分类性能.动车组运维实验表明:该算法提高了分类的准确率和效率.  相似文献   

20.
AdaBoost作为一种有效的集成学习方法,能够明显提高不稳定学习算法的分类正确率,但对稳定的Naive Bayesian分类算法的提升效果却不明显.为此,利用多种特征评估函数建立不同的特征视图,生成多个有差异的加权朴素贝叶斯(WNB)基分类器;尝试使用几种不同的方式将样本权重嵌入WNB基分类器的参数中,对WNB产生扰动,进一步增加基分类器的不稳定性.实验结果表明,对比AdaBoost所提算法,BoostMV-WNB能够明显提升WNB文本分类器的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号