首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网页分类中的数据预处理方法研究
引用本文:郭淼霞.网页分类中的数据预处理方法研究[J].莆田高等专科学校学报,2011(5):82-86.
作者姓名:郭淼霞
作者单位:泉州师范学院数学与计算机科学学院,福建泉州362000
基金项目:泉州师范学院科研自选项目(2011KJ07)
摘    要:讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。

关 键 词:网页分类  网页去噪  预处理  超链接

Research on the Data Preprocessing of Webpage Categorization
GUO Miao-xia.Research on the Data Preprocessing of Webpage Categorization[J].Journal of Putian College,2011(5):82-86.
Authors:GUO Miao-xia
Institution:GUO Miao-xia(College of Mathematics and Computer Sciences,Quanzhou Normal University,Quanzhou Fujian 362000,China)
Abstract:This paper discussed the technology of data preprocessing in webpage categorization process and put forward a method of webpage pretreatment which parse the page into a DOM tree structure.The characteristics of the webpage noise was extracted through analysising and sorting operation.We finally found out the noise in accordance with the decision rules and removed them.Then,we extracted the text information and links for each target URL,source URL and anchor text and stored them in the database.This method has been proved to be effective on improving the accuracy of classification by our experiment.
Keywords:webpage categorization  webpage noise elimination  pretreatment  hyperlink
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号