首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 937 毫秒
1.
引入柯尔莫格洛夫复杂性理论来描述邮件的特征,采用信息距离理论衡量邮件的相似程度,采用支持向量机(SVM)算法对邮件进行分类,提出了一种高准确率的垃圾邮件识别方法.相对于传统的垃圾邮件识别方法,该方法不需要对垃圾邮件进行邮件分割,省略邮件头分析和正文分析,可以准确地刻画垃圾邮件的主要特征,具有运算简单高效的特点.测试结果表明:该方法对文本邮件的分类准确率高达99%以上,有效提高了垃圾邮件识别的准确率.  相似文献   

2.
基于聚类的垃圾邮件识别技术研究   总被引:1,自引:0,他引:1  
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。  相似文献   

3.
基于用户反馈和增量学习的垃圾邮件识别方法   总被引:1,自引:0,他引:1  
为了提高垃圾邮件识别的准确度,减少识别中的错判,提出了一种交互式垃圾邮件识别方法。该方法用一组具有特定权重的规则识别垃圾邮件,规则权重分布用改进遗传算法训练得到。增加用户与服务器间的交互,收集用户反馈的错判信息,根据反馈信息用增量学习动态调整规则权重。通过对SpamA ssass in扩展实现了该方法,并应用在邮件服务器上进行了测试。实验中在不影响垃圾邮件识别率的前提下,降低误判率约10%。实验结果表明:该方法不但能有效减少识别中的误判,而且避免了繁琐的重新训练,加快了规则权重的更新速度。  相似文献   

4.
多数在线垃圾邮件识别方法未有效区分用户针对不同邮件内容的感兴趣程度,导致垃圾邮件识别精度不高.文中提出了一种基于支持向量机的垃圾邮件在线识别新方法.即结合传统增量学习及主动学习理论,先通过随机选择代表样本寻找分类最不确定的样本进行人工标注;接着引入用户兴趣度的概念,提出了新的样本标注模型和算法性能评价标准;最后结合"轮盘赌"方法将标注后样本加入训练样本集.多种对比实验表明,文中方法针对垃圾邮件识别精度高,样本训练及待标注样本选择速度快,具有较高的在线应用价值.  相似文献   

5.
基于Morphology处理和主题词抽取的垃圾邮件过滤方法   总被引:4,自引:0,他引:4  
考虑到垃圾邮件预处理的重要性,提出了利用Morphology对垃圾邮件内容进行还原.为了提高邮件分类的性能,对邮件进行主题词抽取,并且结合邮件其他的属性特征,利用贝叶斯方法对邮件进行分类.实验表明,这种基于Morphology处理和主题词抽取的垃圾邮件过滤方法十分有效.  相似文献   

6.
垃圾邮件过滤技术主要有三个大类,它们分别运用不同的方法和途径来判定垃圾邮件:基于IP地址;基于规则;基于邮件内容.基于内容的垃圾邮件过滤是一种常用的反垃圾邮件技术,它以邮件在内容方面的特点来鉴别邮件,在技术上利用文本分类的方法来实现.文章设计了基于内容的,采用贝叶斯方法进行文本分类的垃圾邮件处理系统.  相似文献   

7.
一种P2P结构的协作式反垃圾邮件模型   总被引:1,自引:0,他引:1  
垃圾邮件已成为当今邮件系统的主要问题,垃圾邮件发送者通过伪装邮件来逃避反垃圾邮件系统的检测.建议用一种健壮的摘要算法来识别相似垃圾邮件,并利用在邮件服务器之间建立一种带索引的结构化P2P网络来共享垃圾邮件的知识.仿真结果表明,该系统结构以及摘要算法有效地实现了相似邮件的聚集,从而达到了过滤垃圾邮件的目的.  相似文献   

8.
针对垃圾邮件中往往会包含指向目标地址的链接的特征,提出一种新颖的垃圾邮件过滤方法.该方法提取邮件体中的链接,将其相关特征表示成一个向量,运用机器学习技术对其进行训练分类.实验结果表明,该技术是一种快速有效的垃圾邮件过滤技术.特别地,由于在垃圾邮件中添加链接对垃圾邮件发送者来说几乎是不可避免的,该技术也被认为是非常可靠的.  相似文献   

9.
为解决垃圾邮件过滤的精确度和有效性问题,提出了一种基于邮件内容过滤的垃圾邮件过滤方法,该方法采用Boosting算法构造了一种垃圾邮件过滤器,利用该垃圾邮件过滤器实现对垃圾邮件的过滤. 本文借鉴文本分类和信息检索领域所使用的评价指标,构建了垃圾邮件过滤器的评价体系,利用该评价体系,针对基于Boosting算法所构造的垃圾邮件过滤器对垃圾邮件的过滤实验所得到的数据进行了测试和评估,测试和评估的结果验证了Boosting算法在垃圾邮件过滤中的有效性,其性能优于传统的贝叶斯算法.   相似文献   

10.
基于朴素贝叶斯的垃圾邮件分类系统的设计   总被引:1,自引:0,他引:1  
结合垃圾邮件分类系统的具体要求,在传统规则分类方法的基础上引入机器学习的知识,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法,并详细讨论了一个基于朴素贝叶斯方法的个性化垃圾邮件分类系统的设计。提出的分TFIDF特征子集提取算法和朴素贝叶斯方法对邮件进行分类具有较好的分类精度,应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度。  相似文献   

11.
垃圾邮件数量庞大、伪装形式多种多样,给反垃圾邮件带来了巨大的挑战。提出了一个基于行为和时间特征的垃圾邮件检测方法。根据邮件收发记录分析基于社会网络的行为特征和基于邮件发送间隔的时间特征,采用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到特征子空间。使用带标签的训练样本训练支持向量机SVM,形成邮件决策信息,以此检测出垃圾邮件。利用最近3年真实邮件数据,从不同的角度进行了对比实验。结果证明,提出的行为与时间特征能有效提升垃圾邮件检测的准确率和查全率,其整体性能优于其他的基于行为的垃圾邮件检测方法。  相似文献   

12.
现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.  相似文献   

13.
To deal with the junk e-mail problem caused by the e-mail address leakage for a majority of Internet users, this paper presents a new privacy protection model in which the e-mail address of the user is treated as a piece of privacy information concealed. Through an interaction pattern that involves three parties and uses an e-mail address code in the place of an e-mail address, the proposed model can prevent the e-mail address from being leaked, thus effectively resolving the junk e-mail problem. We compare the proposed anti-spam method with the filtering technology based on machine learning. The result shows that 100% spams can be filtered out in our scheme, indicating the effectiveness of the proposed anti-spam method.  相似文献   

14.
反垃圾邮件技术综述   总被引:1,自引:0,他引:1  
垃圾邮件已成为互联网上巨大的危害之一,引起了社会的广泛关注和研究人员的深入研究.企业消耗在垃圾邮件上的成本逐日攀升。本文首先介绍了垃圾邮件发送手段,然后综述了目前反垃圾邮件常用的五种技术.它们分别是:基于规则的垃圾邮件过滤,基于贝叶斯理论的垃圾邮件过滤,基于支持向量机的垃圾邮件过滤.基于决策树的垃圾邮件过滤.基于数据挖掘的垃圾邮件过滤。分析各项技术的优劣。  相似文献   

15.
为了提高人脸图像的识别率、识别效率和鲁棒性,提出一种基于主成分分析(Principal Component Analysis, PCA)和支持向量机(support Vector machine,SVM)的鲁棒稀疏线性判别分析方法,通过ORL和YaleB人脸库、COIL20物体库和UCI机器学习库中部分数据集,将本文方法与线性判别分析、鲁棒线性判别分析、基于 范数和巴氏距离的鲁棒线性判别分析、鲁棒自适应线性判别分析和鲁棒稀疏线性判别分析等六种方法进行比较。实验结果表明,在ORL人脸库、COIL20物体库和UCI机器学习库的部分数据集中,在原始图像条件下,本文方法的识别率均值依次为92.80%,97.76%和89.61%,均高于其它5种方法。在YaleB人脸库加入椒盐噪声的条件下,本文方法的识别率均值为81.35%,比其它五种方法高1.37%以上。  相似文献   

16.
基于定性空间推理对空间关系给出一个通用特征集合, 并结合网络爬虫、 文本挖掘、 空间数据库和机器学习方法提出一种针对中文文本的通用空间关系识别框架, 解决了大数据中中文文本的空间关系识别问题. 与传统人工建立的空间关系模型相比, 该方法具有更高的识别率, 适用于处理大数据中中文文本的空间信息.  相似文献   

17.
针对轴承振动信号的不确定性和非平稳性以及BP神经网络学习算法收敛速度慢、稳定性差等问题,提出了基于云模型和集成极限学习机的滚动轴承故障模式识别方法.将经预处理之后的信号进行云化,产生滚动轴承在不同状态下的信号云;提取出决定信号云分布的期望、熵和超熵三个参数作为表征轴承状态的特征量并依此构造出原始的轴承状态数据集;再将故...  相似文献   

18.
随着电子邮件的广泛使用,垃圾邮件问题也日益严峻.基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一.提出了一种基于带有模糊隶属度的模糊支持向量机对中文垃圾邮件过滤的方法,同时,为解决FSVM中隶属度函数的确定问题,使用了一种改进的基于类中心的隶属度函数设计方法.通过实验,使用FS-VM对垃圾邮件过滤能够取得较好的效果.  相似文献   

19.
针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。  相似文献   

20.
传统方法通过提取用户的静态行为特征,利用监督学习模型完成识别,在社交网络规模大的状态下,水军用户团队不当行为特征和正常用户越来越相似,无法准确识别社交网络中水军用户团队的不当行为。为了解决该问题,依据用户动态行为特征研究社交网络中水军用户团队不当行为准确识别技术。对社交网络进行描述,在此基础上,提取用户行为动态特征。把社交网络中水军用户团队不当行为识别问题看作二分类问题,将提取动态特征相应的样本作为输入,构建决策树,通过决策树对新的社交网络数据集进行水军用户团队不当行为识别。结果发现:采用的动态特征可有效反映水军团队不当用户行为特征;所提技术对水军用户团队不当行为的识别结果和人工标识结果基本一致;所提技术在三个数据集上的调和平均值和平衡准确度较其它技术高。可见所提技术识别准确性高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号