首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

2.
针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。  相似文献   

3.
近年来藏文移动终端的研发和推广工作蓬勃发展,对藏文化的发展产生了深远的影响,但同时也给信息安全带来了巨大挑战.文章分析了藏文移动终端、藏文手机输入法和藏文垃圾短信过滤现状,探讨了朴素贝叶斯算法在垃圾短信过滤中的应用,最后提出了基于朴素贝叶斯算法的藏文垃圾短信过滤的相关问题,并研究了相关关键技术.  相似文献   

4.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

5.
移动终端爆发式增长造成了恶意应用的大量出现,给用户的隐私安全和财产安全带来了巨大的危害.为提高Android应用恶意性检测的准确性,本文将卡方检验与基尼不纯度增量相结合获取更有价值的特征属性;并改进朴素贝叶斯算法提高Android应用恶意性判断的准确性.实验结果表明:新的特征处理方法能够有效提高检测性能;同时,改进后的朴素贝叶斯算法相比原始算法而言准确率有较大的提升.   相似文献   

6.
近年来藏文移动终端的研发和推广工作蓬勃发展,对藏文化的发展产生了深远的影响,但同时也给信息安全带来了巨大挑战。文章分析了藏文移动终端、藏文手机输入法和藏文垃圾短信过滤现状,探讨了朴素贝叶斯算法在垃圾短信过滤中的应用,最后提出了基于朴素贝叶斯算法的藏文垃圾短信过滤的相关问题,并研究了相关关键技术。  相似文献   

7.
垃圾短信给人们的生活带来了越来越多的扰乱与不安,改革了传统的朴素贝叶斯分类模型,对垃圾短信进行识别过滤,实验表明该方法提高了准确率,具有较好的分类效果。  相似文献   

8.
在信息资讯发达的今天,短信已成为日常生活中每天都要接触的东西,但同时垃圾短信也常常困扰着人们,为此,进行垃圾短信过滤成为了一个必要的问题.与普通的分类问题不同,垃圾短信的表现形式为文本数据,且不同的垃圾短信的文本特征各不相同,提高了分类识别的难度.其次,垃圾短信总体来说在所有短信中的占比并不高,因此,常常伴随着类别不平衡,由此样本不平衡带来的信息不充分也提高了识别的难度.针对这些问题,文章首先采取TF-IDF方法进行特征提取,把文本数据转化成向量的形式,然后在经过转换的数据应用欠采样技术获得若干个类别平衡的训练样本,每个样本分别采取朴素贝叶斯、决策树和支持向量机等分类模型进行训练,得到相应基分类器,最后再利用集成学习的思想把基分类器进行模型融合,得到一个分类性能较高的垃圾短信识别模型.  相似文献   

9.
最大相关最小冗余限定性贝叶斯网络分类器学习算法   总被引:2,自引:1,他引:1  
朴素贝叶斯分类器 (naive bayes) 是一种简单而有效的基于贝叶斯思想的分类方法,但它的属性条件独立性假设并不符合实际,影响了它的分类性能。BAN (bayesian network augmented naive bayes) 分类器扩展了朴素贝叶斯分类器,使其表示属性之间依赖关系的能力增强,但是其学习算法需要大量的高维计算,在小采样数据集上,影响BAN分类器的分类性能。基于改进的最大相关最小冗余特征选择技术,提出限定性贝叶斯网络分类器学习算法 (k-BAN)。本算法使用改进的最大相关最小冗余特征选择技术,通过选择属性结点的连接关系集合建立属性之间的依赖性关系。将该分类方法与NB,TAN和BAN分类器进行实验比较。实验结果表明,在小采样数据集上,本算法获得的限定性贝叶斯网络分类器具有更高的分类准确性。  相似文献   

10.
朴素贝叶斯分类器是一种简单有效的文本分类方法.改进方法利用同义词对文本的特征词集进行过滤,在一定程度上放松了朴素贝叶斯的特征独立性假设;在特征选择时迭代了2种不同的特征选择方法,有效地提高了特征集的代表性.实验结果表明,本方法有效地提高了朴素贝叶斯分类器的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号