首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于概率的朴素贝叶斯分类器因其算法复杂度低、分类精度高而被广泛应用于垃圾邮件过滤领域。该文在对传统朴素贝叶斯分类器进行分析的同时,结合垃圾邮件过滤的特性,设计并实现了基于多项式朴素贝叶斯算法的垃圾邮件过滤器。该过滤器引入拉普拉斯平滑因子降低合法邮件被误判为垃圾邮件的概率,得到了较好的分类效果。实验结果验证了方法的有效性。  相似文献   

2.
基于改进贝叶斯的垃圾邮件过滤算法综述   总被引:4,自引:0,他引:4  
朴素贝叶斯分类器是机器学习中一种简单而又有效的分类方法,但是由于它的属性条件独立性假设在实际应用中经常不成立,这影响了它的分类性能,为此基于改进贝叶斯的垃圾邮件过滤算法已受到越来越多的研究人员关注.本文通过对当前提出的最新的具有代表性的基于改进贝叶斯的垃圾邮件过滤算法进行分析和比较,总结各个算法的优点和不足,从而便于研究者对已有的算法再进行改进,提出具有更好性能的新的邮件过滤算法,同时方便使用者在应用时对算法的选择和使用.  相似文献   

3.
文中针对当下愈发泛滥的垃圾邮件,分别使用朴素贝叶斯分类和支持向量机分类法对当前日益泛滥的垃圾邮件进行识别、分类,将"词频-筛"混合特征选择方法应用于分类器模型中,以提高分类器的识别性能.同时,通过考虑更全面的分类概率情况,改进朴素贝叶斯分类模型,进一步提升朴素贝叶斯分类器的识别性能.最后通过实验得到了该垃圾邮件识别系统的准确率、召回率和F1值等分类识别性能指标.实验结果表明,"词频-筛"混合特征选择方法能有效提高垃圾邮件分类器的识别性能,而且使用成本敏感方法的分类输出调节模块也能大大降低分类器将正常邮件误判为垃圾邮件的概率,因此,文中设计的垃圾邮件识别系统具有较强的实用性,可以在实际工作、生活中使用.  相似文献   

4.
基于贝叶斯算法的垃圾邮件过滤技术的研究与改进   总被引:5,自引:0,他引:5  
随着电子邮件的应用与普及,垃圾邮件的泛滥也越来越多地受到人们的关注.本文对基于贝叶斯的垃圾邮件过滤器的原理及其关键技术进行了详细的描述.针对朴素贝叶斯模型对分类信息过度简化和准确率低等缺点,通过引入分级的最小风险算法和对多项式和多重贝努利估计模犁进行混合的方法分别对贝叶斯过滤器进行了改进,并进行了实验.实验结果表明,改进后的贝叶斯过滤器具有了更好过滤效果.  相似文献   

5.
高洁 《科技信息》2011,(32):254-254
本文针对朴素贝叶斯垃圾邮件过滤算法对垃圾邮件的误判,提出了一种新的改进型的贝叶斯邮件过滤算法,即引入了影响决策结果的损失因子λ,保证了在损失风险最小的前提下进行邮件的判断,使误判率降低,提高了过滤器的分类效果。  相似文献   

6.
以朴素的贝叶斯过滤器为基础,采用二进制表示方法建立垃圾邮件特征表,设计并实现一种垃圾邮件过滤器.该过滤器适于客户端使用,当客户端接收方收到新邮件时,对邮件的内容进行扫描,通过与特征表的对比,计算出特征词出现的概率,从而判定一个邮件是否为垃圾邮件.  相似文献   

7.
目前电子邮件得到了广泛的应用,同时垃圾邮件问题也随之而来。本文针对垃圾邮件的处理,从用户的兴趣角度出发,基于朴素贝叶斯算法对垃圾邮件个性化过滤.在朴素贝叶斯算法的条件概率计算中,本文选用了多变量贝努里事件模型的计算方法,最后以VC++6.0为实验平台在Ling-Spam语料库上进行实验.  相似文献   

8.
目前电子邮件得到了广泛的应用,同时垃圾邮件问题也随之而来.本文针对垃圾邮件的处理,从用户的兴趣角度出发,基于朴素贝叶斯算法对垃圾邮件个性化过滤.在朴素贝叶斯算法的条件概率计算中,本文选用了多变量贝努里事件模型的计算方法,最后以VC++6.0为实验平台在Ling-Spam语料库上进行实验.  相似文献   

9.
包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE-GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度.  相似文献   

10.
在原有中医药冠心病临床治疗数据采集系统的基础上,使用中医证型的辨证相关因素,提出属性加权朴素贝叶斯算法,并应用到冠心病中医证型的分类模型之中.实验结果显示,对于冠心病4种证型的分类,运用属性加权朴素贝叶斯分类算法都略高于朴素贝叶斯分类算法.实验结果表明属性加权朴素贝叶斯分类算法在中医冠心病临床诊断中具有良好的分类性能.  相似文献   

11.
不同用户对垃圾邮件的判定有所差别,考虑到同一用户的自认垃圾邮件相似度较大,提出对特定用户进行针对性的垃圾邮件过滤方法.系统除重点利用邮件正文信息外,还尝试加入发件人、群发信息和主题相关度信息,改 进朴素贝叶斯公式用于邮件正文的概率计算,基于BP神经网络构造垃圾邮件判别系统.实验表明,改进的朴素贝叶斯公式用于本文的系统是...  相似文献   

12.
阐述了贝叶斯算法的基本原理及基于朴素贝叶斯算法的反垃圾邮件自动过滤技术.在深刻分析朴素贝叶斯算法不足的基础上,提出了旨在提高垃圾邮件过滤精确率的改进方案,给出了实验结果.  相似文献   

13.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

14.
利用加权核Fisher准则,给出一种朴素贝叶斯分类器的改进算法。该算法通过寻找使类与类最大分离的最优投影矩阵,将样本数据进行投影变换,再利用朴素贝叶斯分类器对新样本进行分类。将该方法应用于双酚A生产过程在线监测数据集的分类中,仿真结果表明,相比于单纯朴素贝叶斯分类器,该分类算法具有更好的分类性能。  相似文献   

15.
不同用户对垃圾邮件的判定有所差别,考虑到同一用户的自认垃圾邮件相似度较大,提出对特定用户进行针对性的垃圾邮件过滤方法.系统除重点利用邮件正文信息外,还尝试加入发件人、群发信息和主题相关度信息,改进朴素贝叶斯公式用于邮件正文的概率计算,基于BP神经网络构造垃圾邮件判别系统.实验表明,改进的朴素贝叶斯公式用于本文的系统是可行的,基于BP神经网络的垃圾邮件过滤系统能有效综合以上四项数值进行全局判别,进而对特定用户的邮件产生不错的过滤效果.  相似文献   

16.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

17.
大量的垃圾邮件的出现给用户收发电子邮件带来了极大的困扰,目前基于贝叶斯算法的垃圾邮件过滤系统在处理垃圾邮件上取得了很好的效果,但该算法也存在一些缺陷,本文从分析贝叶斯算法入手,提出了对该算法的一些改进方案,最后对贝叶斯算法进行了总结和展望。  相似文献   

18.
混合式朴素贝叶斯分类模型   总被引:3,自引:0,他引:3  
为了降低朴素贝叶斯分类模型的独立性假设约束,提出一种混合式朴素贝叶斯分类模型(MBN:Mixed Naive Bayes)。通过分析贝叶斯定理,把条件属性集合划分成若干个独立的属性子集,用树增广朴素贝叶斯分类对属性子集分别进行分类学习,通过公式进行整合。将该模型算法与朴素贝叶斯及树增广朴素贝叶斯进行实验比较,实验结果表明MBN分类器在多数数据集上具有较高的分类正确率。  相似文献   

19.
大量垃圾邮件的出现给用户收发邮件带来了极大的困扰.在朴素贝叶斯算法的基础上,利用最小风险贝叶斯算法修正过滤器,设计出了一种新的电子邮件过滤系统模型.重点讨论了实现该系统所需处理的几个关键问题,最后给出了实验结果.  相似文献   

20.
朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented NaIeve Bayes)在许多情况下优于朴素贝叶斯分类器。然而,由于学习TAN所需的空间是数据属性个数的二次项级,限制了TAN对高维数据(如:文本数据)的分类,本文介绍了TAN模型及其一般的构造算法,提出一种新的TAN构造算法ITAN,该算法的空间复杂度是数据属性个数的线性级,最后将该算法用于文本分类,实验比较了朴素贝叶斯分类器和TAN分类器,实验结果表明:该方法具有较好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号