首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 796 毫秒
1.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

2.
针对个性化邮件过滤中接收的邮件没有规律、正常邮件和垃圾邮件存在严重类偏移等问题,提出一种改进的k最近邻(k-nearest neighbor algorithm,KNN)个性化邮件过滤方法.该方法主要是通过建立兴趣度模型(对兴趣度计算的改进,剔除用户习惯对建立兴趣度模型带来的影响)不断改变训练集,使得训练集中的文本始终...  相似文献   

3.
为解决垃圾邮件过滤的精确度和有效性问题,提出了一种基于邮件内容过滤的垃圾邮件过滤方法,该方法采用Boosting算法构造了一种垃圾邮件过滤器,利用该垃圾邮件过滤器实现对垃圾邮件的过滤. 本文借鉴文本分类和信息检索领域所使用的评价指标,构建了垃圾邮件过滤器的评价体系,利用该评价体系,针对基于Boosting算法所构造的垃圾邮件过滤器对垃圾邮件的过滤实验所得到的数据进行了测试和评估,测试和评估的结果验证了Boosting算法在垃圾邮件过滤中的有效性,其性能优于传统的贝叶斯算法.   相似文献   

4.
为实现对电子邮件中垃圾邮件的过滤,提出一种新的邮件过滤算法和邮件过滤Agent的设计方法.Agent通过算法学习用户接收邮件的信息及用户对邮件的处理习惯,据此最终确定邮件是否为垃圾邮件或病毒邮件,从而过滤掉非正常邮件.实验测试表明,Agent对邮件过滤的正确率可达85%,为现有电子邮件系统提供了一种改进方法.  相似文献   

5.
任贤 《科技信息》2011,(16):I0107-I0108
电子邮件是网络应用的重要方面,但垃圾邮件也随之而来。单一过滤技术已难以适应垃圾邮件多变的特征,而层次化过滤效率难以保证。综合多种过滤技术、过滤性能优越的邮件过滤系统研究成为必然。本文提出一种均衡代价的多算法协作式邮件过滤模型,以使邮件过滤系统在保证效率的基础上获得较好的(1-ROCA)%性能。  相似文献   

6.
基于生物序列模式提取技术的邮件过滤算法   总被引:3,自引:0,他引:3  
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TEIRESIAS的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法BioMatrix,并实现了基于此算法的中英文邮件过滤系统.过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%.与Bayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值.  相似文献   

7.
骆丽娟 《科技信息》2007,(28):324-328
基于内容的垃圾邮件过滤方法是垃圾邮件过滤方法的一个重要分支,由于其高准确率,朴素贝叶斯算法更在基于内容的过滤方法中占了一席之地。本文介绍了贝叶斯算法的基本原理及其在邮件过滤中的应用,并写出了其监督训练过程和邮件过滤具体过程,做出了全部过程的进程图。提出了笔者自己的一点想法,建立用户个人邮件训练集可能会更一步增加垃圾邮件过滤的正确度与召回率。  相似文献   

8.
一种P2P结构的协作式反垃圾邮件模型   总被引:1,自引:0,他引:1  
垃圾邮件已成为当今邮件系统的主要问题,垃圾邮件发送者通过伪装邮件来逃避反垃圾邮件系统的检测.建议用一种健壮的摘要算法来识别相似垃圾邮件,并利用在邮件服务器之间建立一种带索引的结构化P2P网络来共享垃圾邮件的知识.仿真结果表明,该系统结构以及摘要算法有效地实现了相似邮件的聚集,从而达到了过滤垃圾邮件的目的.  相似文献   

9.
基于贝叶斯概率模型的邮件过滤算法探讨   总被引:1,自引:0,他引:1  
讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析。可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件。  相似文献   

10.
基于贝叶斯概率模型的邮件过滤算法探讨   总被引:6,自引:0,他引:6  
讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析.可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件.  相似文献   

11.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

12.
为了提高垃圾邮件样本的覆盖率和实时性,降低垃圾邮件过滤系统的计算复杂性和滞后性,提出了基于垃圾邮件发送的行为特征,采用蜜罐原理进行垃圾邮件样本采集.引入蜜罐帐户评价公式,根据这个公式设计并实现了蜜罐帐户选择算法,动态地在电子邮件服务器中选择一定数量的帐户作为蜜罐并生成蜜罐集合,定期从蜜罐集合中采集邮件样本,作为过滤系统的学习语料.实验表明,利用该方法能够使采集到垃圾邮件样本覆盖率达到98%以上.由于系统能够定期地进行样本采集,因此实时性较强,从而提高系统过滤垃圾邮件的能力.  相似文献   

13.
垃圾邮件数量庞大、伪装形式多种多样,给反垃圾邮件带来了巨大的挑战。提出了一个基于行为和时间特征的垃圾邮件检测方法。根据邮件收发记录分析基于社会网络的行为特征和基于邮件发送间隔的时间特征,采用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到特征子空间。使用带标签的训练样本训练支持向量机SVM,形成邮件决策信息,以此检测出垃圾邮件。利用最近3年真实邮件数据,从不同的角度进行了对比实验。结果证明,提出的行为与时间特征能有效提升垃圾邮件检测的准确率和查全率,其整体性能优于其他的基于行为的垃圾邮件检测方法。  相似文献   

14.
基于用户反馈和增量学习的垃圾邮件识别方法   总被引:1,自引:0,他引:1  
为了提高垃圾邮件识别的准确度,减少识别中的错判,提出了一种交互式垃圾邮件识别方法。该方法用一组具有特定权重的规则识别垃圾邮件,规则权重分布用改进遗传算法训练得到。增加用户与服务器间的交互,收集用户反馈的错判信息,根据反馈信息用增量学习动态调整规则权重。通过对SpamA ssass in扩展实现了该方法,并应用在邮件服务器上进行了测试。实验中在不影响垃圾邮件识别率的前提下,降低误判率约10%。实验结果表明:该方法不但能有效减少识别中的误判,而且避免了繁琐的重新训练,加快了规则权重的更新速度。  相似文献   

15.
针对传统的垃圾邮件过滤方法不能有效阻止出现的新型垃圾邮件的问题,借鉴生物免疫系统中疫苗的概念和免疫记忆功能,提出了一种基于疫苗机制的垃圾邮件过滤模型SFM-V(spam filtering model based on vaccine mechanism).该模型详细描述了垃圾邮件检测器的演化和抗原提呈的过程,通过疫苗控制器实现疫苗提取和疫苗接种,新生成的免疫记忆细胞作为疫苗实现信息交互,共享抗体.并引入小生境免疫记忆与共享机制,增加检测器的多样性及稳定性,促进免疫记忆库及原始抗体库中优良个体的保存,有效地提取和记忆垃圾邮件的未知特征和变异特征.利用CCERT(china education and research network)的邮件样本集对该模型进行训练和检测,仿真实验结果表明该模型有效地提高了垃圾邮件的正确率、召回率等特性,降低了垃圾邮件的虚报率.  相似文献   

16.
K-最近邻的改进及其在文本分类中的应用   总被引:4,自引:0,他引:4  
采用K近邻算法(Knearest neighbors,简称KNN)进行分类时,如果训练样本数量太大,那么搜索测试样本的K个最近邻时,算法的计算量很大.本文针对KNN的不足提出了一种改进方法.改进的KNN算法通过定义样本的延拓类和延拓能力,保留延拓能力强的样本作为它延拓类中其它训练样本的代表,来缩减训练样本数量,达到减少算法计算量的目的.实验证明,改进的KNN算法具有很好的性能.  相似文献   

17.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

18.
介绍了采用贝叶斯统计法过滤垃圾邮件的算法,通过简单贝叶斯过滤算法的研究,引入了派生的贝叶斯过滤算法——零散二元多项式散列法过滤技术,它能够处理单个的特征词和变异的特征词汇.零散二元多项式散列法和贝叶斯统计法的整合,可以建立一个功能强大的垃圾邮件过滤器.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号