首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于主题网络爬虫的不良网页的发现与识别
引用本文:方育柯,傅彦,周俊临,夏虎.基于主题网络爬虫的不良网页的发现与识别[J].郑州大学学报(理学版),2010,42(2).
作者姓名:方育柯  傅彦  周俊临  夏虎
作者单位:电子科技大学,计算机科学与工程学院,四川,成都,610054
基金项目:国家自然科学基金,国家863计划项目,四川省科技攻关项目
摘    要:针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.

关 键 词:主题网络爬虫  不良网页  文本特征

Unhealthy Webpage Detection Based on Topic-focused Web Crawler
FANG Yu-ke , FU Yan , ZHOU Jun-lin , XIA Hu.Unhealthy Webpage Detection Based on Topic-focused Web Crawler[J].Journal of Zhengzhou University:Natural Science Edition,2010,42(2).
Authors:FANG Yu-ke  FU Yan  ZHOU Jun-lin  XIA Hu
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号