首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于聚类的垃圾邮件识别技术研究
引用本文:蒋盛益,庞观松,张建军.基于聚类的垃圾邮件识别技术研究[J].山东大学学报(理学版),2011,46(5):71-76.
作者姓名:蒋盛益  庞观松  张建军
作者单位:1. 广东外语外贸大学信息学院,广东广州,510420
2. 广东外语外贸大学国际工商管理学院,广东广州,510006
3. 海军工程大学理学院,湖北武汉,430033
基金项目:国家自然科学基金资助项目,广东省自然科学基金资助项目,广东省高层次人才项目,广东外语外贸大学研究生创新团队项目
摘    要:随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。

关 键 词:垃圾邮件识别  k最近邻文本分类  一趟聚类算法  增量式建模

Research on spam detection techniques based on clustering
JIANG Sheng-yi,PANG Guan-song,ZHANG Jian-jun.Research on spam detection techniques based on clustering[J].Journal of Shandong University,2011,46(5):71-76.
Authors:JIANG Sheng-yi  PANG Guan-song  ZHANG Jian-jun
Institution:JIANG Sheng-yi1,PANG Guan-song2,ZHANG Jian-jun3 (1.School of Informatics,Guangdong University of Foreign Studies,Guangzhou 510420,Guangdong,China,2.School of Management,Guangzhou 510006,3.College of Science,Naval University of Engineering,Wuhan 430033,Hubei,China)
Abstract:With the surge of email spam,how to detect it becomes an important and urgent problem.To cope with the defects of kNN spam detection,an improved kNN spam detection approach based on clustering is proposed.First,by using the least distance principle,the training email text samples are divided into several hyper spheres with the approximate radius,and the texts contained in hyper spheres are from one or more of these categories.Second,the clusters(hyper spheres) are tagged by using the majority voting mechani...
Keywords:spam detection  kNN text categorization  single pass clustering  incremental modeling  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号