首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于支持向量机的搜索引擎垃圾网页检测研究
引用本文:贾志洋,李伟伟,高炜,夏幼明.基于支持向量机的搜索引擎垃圾网页检测研究[J].云南民族大学学报(自然科学版),2011,20(3).
作者姓名:贾志洋  李伟伟  高炜  夏幼明
作者单位:1. 云南大学旅游文化学院,云南丽江,674100
2. 宁德职业技术学院计算机科学系,福建宁德,3520003
3. 云南师范大学信息学院,云南昆明,650040
基金项目:国家自然科学基金,云南省教育厅科学研究基金
摘    要:搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器.

关 键 词:垃圾网页  垃圾网页检测  机器学习  网页分类  支持向量机

Study of the Web Spam Detection Based on the Support Vector Machine
JIA Zhi-yang,LI Wei-wei,GAO Wei,XIA You-ming.Study of the Web Spam Detection Based on the Support Vector Machine[J].Journal of Yunnan Nationalities University:Natural Sciences Edition,2011,20(3).
Authors:JIA Zhi-yang  LI Wei-wei  GAO Wei  XIA You-ming
Institution:JIA Zhi-yang1,LI Wei-wei2,GAO Wei3,XIA You-ming3(1.School of Tourism and Culture,Yunnan University,Lijiang 674100,China,2.Department of Computer Science,Ningde Vocational and Technical College,Ningde 352000,3.Department of Information,Yunnan Normal University,Kunming 650040,China)
Abstract:With the widespread application of search engines,some web pages often carry out cheating the search engines for the purpose of increasing rankings in the search results.These web pages are called web spam.The web spam detection problem is viewed as a classification problem,and that means classification models are created by machine learning classification algorithms,which include two categories: Normal and Spam.Content-based classification models usually ignore the link structures of web pages.So the soft ...
Keywords:web spam  web spam detection  machine learning  web page classification  support vector machine  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号