基于自动生成模板的Web信息抽取技术 Study of Web Information Extraction Technology Based on Automatically Generated Template期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于自动生成模板的Web信息抽取技术

引用本文：	张彦超,刘云,李勇,沈波. 基于自动生成模板的Web信息抽取技术[J]. 北京交通大学学报(自然科学版), 2009, 33(5)

作者姓名：	张彦超刘云李勇沈波

作者单位：	北京交通大学电子信息工程学院,北京,100044;北京交通大学电子信息工程学院,北京,100044;北京交通大学电子信息工程学院,北京,100044;北京交通大学电子信息工程学院,北京,100044

基金项目：	教育部高等学校科技创新工程重人项目，通信与信息系统北京市重点实验窀资助项目，北京市教育人建项日专项资助

摘要：	在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.
关键词：	信息抽取模板文档对象模型 XPath 网络舆情
Study of Web Information Extraction Technology Based on Automatically Generated Template

ZHANG Yanchao,LIU Yun,LI Yong,SHEN Bo. Study of Web Information Extraction Technology Based on Automatically Generated Template[J]. JOURNAL OF BEIJING JIAOTONG UNIVERSITY, 2009, 33(5)

Authors:	ZHANG Yanchao LIU Yun LI Yong SHEN Bo

Affiliation:	ZHANG Yanchao,LIU Yun,LI Yong,SHEN Bo(School of Electronics , Information Engineering,Beijing Jiaotong University,Beijing 100044,China)

Abstract:	In online public opinion analysis,the people need for automatic tools to find the exact information among the magnanimous information sources for further analysis.This paper presented an approach based on automatically generated template to eliminate noise content and extract information from web pages efficiently.The web page was translated into Document Object Model,and then the extraction rules according to the user demand were established.Based on the above process,the templates of web pages were automa...

Keywords:	XPath
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏