首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
基于Boosting算法的垃圾邮件过滤方法研究   总被引:2,自引:2,他引:0  
为解决垃圾邮件过滤的精确度和有效性问题,提出了一种基于邮件内容过滤的垃圾邮件过滤方法,该方法采用Boosting算法构造了一种垃圾邮件过滤器,利用该垃圾邮件过滤器实现对垃圾邮件的过滤. 本文借鉴文本分类和信息检索领域所使用的评价指标,构建了垃圾邮件过滤器的评价体系,利用该评价体系,针对基于Boosting算法所构造的垃圾邮件过滤器对垃圾邮件的过滤实验所得到的数据进行了测试和评估,测试和评估的结果验证了Boosting算法在垃圾邮件过滤中的有效性,其性能优于传统的贝叶斯算法.   相似文献   

2.
基于概率的朴素贝叶斯分类器因其算法复杂度低、分类精度高而被广泛应用于垃圾邮件过滤领域。该文在对传统朴素贝叶斯分类器进行分析的同时,结合垃圾邮件过滤的特性,设计并实现了基于多项式朴素贝叶斯算法的垃圾邮件过滤器。该过滤器引入拉普拉斯平滑因子降低合法邮件被误判为垃圾邮件的概率,得到了较好的分类效果。实验结果验证了方法的有效性。  相似文献   

3.
基于生物序列模式提取技术的邮件过滤算法   总被引:3,自引:0,他引:3  
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TEIRESIAS的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法BioMatrix,并实现了基于此算法的中英文邮件过滤系统.过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%.与Bayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值.  相似文献   

4.
针对传统的单一算法对垃圾邮件进行过滤效果不理想的问题,在分析和研究最小风险贝叶斯算法和AdaBoost算法的基础上,将两者结合在一起,提出一种基于AdaBoost的最小风险贝叶斯的垃圾邮件过滤算法,将其应用到垃圾邮件过滤中,并分别与最小风险贝叶斯算法和AdaBoost算法的过滤效果进行比较,结果表明,该算法能够有效提高...  相似文献   

5.
垃圾邮件的改进贝叶斯过滤算法   总被引:1,自引:0,他引:1  
在研究贝叶斯过滤算法原理和实现方法的基础上,将垃圾邮件的先验概率由常数改进为实际概率,改进了token的选取范围和选取规则,在检测内容上增加url和图片。最后设计了一个基于改进贝叶斯过滤算法的垃圾邮件过滤器。实验结果表明,这种改进的贝叶斯过滤算法在垃圾邮件过滤中有良好的应用效果。  相似文献   

6.
针对传统的垃圾邮件过滤方法不能有效阻止出现的新型垃圾邮件的问题,借鉴生物免疫系统中疫苗的概念和免疫记忆功能,提出了一种基于疫苗机制的垃圾邮件过滤模型SFM-V(spam filtering model based on vaccine mechanism).该模型详细描述了垃圾邮件检测器的演化和抗原提呈的过程,通过疫苗控制器实现疫苗提取和疫苗接种,新生成的免疫记忆细胞作为疫苗实现信息交互,共享抗体.并引入小生境免疫记忆与共享机制,增加检测器的多样性及稳定性,促进免疫记忆库及原始抗体库中优良个体的保存,有效地提取和记忆垃圾邮件的未知特征和变异特征.利用CCERT(china education and research network)的邮件样本集对该模型进行训练和检测,仿真实验结果表明该模型有效地提高了垃圾邮件的正确率、召回率等特性,降低了垃圾邮件的虚报率.  相似文献   

7.
由于垃圾邮件类型的不断变化,超出现有过滤算法模型中所采用的训练样本范围,造成过滤性能不断下降。因此,提出了一种基于知识积累方法的垃圾邮件过滤算法。利用KNN方法的惰性学习机制,将新型的垃圾邮件动态加入训练样本集中,以实现知识的不断积累过程。在此基础上,应用KNN方法对未知邮件样本进行精确匹配,以排除合法邮件的误判结果。实验表明算法具有较好的过滤性能。  相似文献   

8.
目前电子邮件得到了广泛的应用,同时垃圾邮件问题也随之而来。本文针对垃圾邮件的处理,从用户的兴趣角度出发,基于朴素贝叶斯算法对垃圾邮件个性化过滤.在朴素贝叶斯算法的条件概率计算中,本文选用了多变量贝努里事件模型的计算方法,最后以VC++6.0为实验平台在Ling-Spam语料库上进行实验.  相似文献   

9.
目前电子邮件得到了广泛的应用,同时垃圾邮件问题也随之而来.本文针对垃圾邮件的处理,从用户的兴趣角度出发,基于朴素贝叶斯算法对垃圾邮件个性化过滤.在朴素贝叶斯算法的条件概率计算中,本文选用了多变量贝努里事件模型的计算方法,最后以VC++6.0为实验平台在Ling-Spam语料库上进行实验.  相似文献   

10.
垃圾邮件的过滤是一个具有重要现实意义的课题.将交叉覆盖学习算法和向量空间模型等技术相结合可得到一种新的垃圾邮件过滤方法.实验结果表明该方法识别率较高,具有较强的实用价值.  相似文献   

11.
Naive Bayes算法在垃圾邮件过滤系统中的应用与改进   总被引:1,自引:0,他引:1  
垃圾邮件是Internet上普遍面临的问题,Naive Bayes算法由于其简单高效性在文本分类中应用较广。文章重点阐述了Naive Bayes算法在基于内容的垃圾邮件过滤中的应用及改进,并进行了实验,获得了良好的分类效果,实验论证了它在垃圾邮件过滤中的可行性和有效性。  相似文献   

12.
垃圾邮件的概念漂移及过滤技术研究   总被引:1,自引:0,他引:1  
提出了双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好引起的垃圾邮件概念范畴变化,基于本体提出邮件数字指纹与概念子类别之间的关联强度和隶属度算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。  相似文献   

13.
垃圾邮件过滤是网络信息处理中的重要问题,基于机器学习方法的垃圾邮件过滤技术是目前的研究热点。现有研究一般将过滤问题视为二值分类问题进行解决,存在着模型优化目标和性能评价指标1-AUC不一致的问题,导致模型优化结果产生偏差,过滤性能受到很大影响。该文通过直接优化评价指标1-AUC来提升过滤器性能,将垃圾邮件过滤问题转化成排序问题进行建模,提出了在线排序逻辑回归学习算法,解决了在线学习中的邮件得分偏移问题;综合应用TONE算法和重采样技术,提出参数权重更新算法,解决模型学习中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求。在垃圾邮件过滤公开评测数据集上的实验结果表明,基于在线排序逻辑回归模型的过滤结果全面优于在线逻辑回归模型的过滤结果。  相似文献   

14.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

15.
垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容分类与过滤垃圾邮件是当前解决垃圾邮件问题的主流技术之一.本文对电子邮件内容做了深入的研究,提出了一种更适合垃圾邮件分类的新的特征提取方法,并将新的特征提取方法与基于essential emerging pattern(eEP)的分类算法CeEP相结合,应用于垃圾邮件检测,实现了一种基于eEP的电子邮件分类与过滤算法(thee-mail categorization and filtering technology based on eEP,ECFEP).实验表明,新的特征提取方法与CeEP分类算法的结合是一种十分高效的分类方法,算法ECFEP的分类效率均高于目前几种较好的分类算法.  相似文献   

16.
为了提高垃圾邮件样本的覆盖率和实时性,降低垃圾邮件过滤系统的计算复杂性和滞后性,提出了基于垃圾邮件发送的行为特征,采用蜜罐原理进行垃圾邮件样本采集.引入蜜罐帐户评价公式,根据这个公式设计并实现了蜜罐帐户选择算法,动态地在电子邮件服务器中选择一定数量的帐户作为蜜罐并生成蜜罐集合,定期从蜜罐集合中采集邮件样本,作为过滤系统的学习语料.实验表明,利用该方法能够使采集到垃圾邮件样本覆盖率达到98%以上.由于系统能够定期地进行样本采集,因此实时性较强,从而提高系统过滤垃圾邮件的能力.  相似文献   

17.
垃圾邮件给当今人们的生活带来严重的负面影响.虽然已经有很多过滤方法,但大多存在一定的不足之处,如检测时间长、召回率低等问题.本文提出了一种基于模拟退火算法和发送行为的垃圾邮件检测模型,旨在弥补已有检测方法的不足.模拟退火算法可能找到全局最优解,且收敛性强;而基于发送行为的垃圾邮件检测技术能显著提高服务器处理垃圾邮件的速度.本文尝试将二者相结合,以提高垃圾邮件的召回率及服务器处理能力.通过实验结果可以看出,该方法在垃圾邮件的召回率上有较大提升,较适于部署在小型邮件服务器上.  相似文献   

18.
随着internet的快速发展,垃圾邮件泛滥成灾.面对垃圾邮件日益严重的现状,提出了贝叶斯邮件过滤模型并讨论了贝叶斯分类方法在垃圾邮件过滤中的应用.针对难以获得大量有类别标签的邮件训练集问题,利用贝叶斯具有增量学习特征,分析并提出了基于小规模训练集的贝叶斯增量邮件过滤方法,通过最小化当前邮件分类器的分类损失,来选择有利于提高分类器性能的邮件加入训练集.实验结果表明,该方法是切实可行的并具有良好的效果.  相似文献   

19.
基于贝叶斯算法的垃圾邮件过滤技术的研究与改进   总被引:5,自引:0,他引:5  
随着电子邮件的应用与普及,垃圾邮件的泛滥也越来越多地受到人们的关注.本文对基于贝叶斯的垃圾邮件过滤器的原理及其关键技术进行了详细的描述.针对朴素贝叶斯模型对分类信息过度简化和准确率低等缺点,通过引入分级的最小风险算法和对多项式和多重贝努利估计模犁进行混合的方法分别对贝叶斯过滤器进行了改进,并进行了实验.实验结果表明,改进后的贝叶斯过滤器具有了更好过滤效果.  相似文献   

20.
基于源地址约束的垃圾邮件过滤模型   总被引:2,自引:0,他引:2  
提出了一种基于关联规则的垃圾邮件挖掘算法,通过计算邮件源地址和邮件关键词的支持度来定位垃圾邮件源地址.该算法在Apriori算法基础上进行了改进,增加了邮件源地址和关键词约束,与基于关键词过滤算法相比提高了准确率,与基于语义分析的过滤算法相比降低了算法复杂度.实验结果表明,该算法的误判率在邮件数量增加到350封时会减小到4%,其过滤速度也会随着邮件的增加而提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号