基于元搜索引擎技术的新闻对象抽取方法研究 RESEARCH ON NEWS INFORMATION EXTRACTION FROM WEB BASED ON META SEARCH ENGINE期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于元搜索引擎技术的新闻对象抽取方法研究

引用本文：	刘敏,何渝.基于元搜索引擎技术的新闻对象抽取方法研究[J].北京工商大学学报(自然科学版),2008,26(3):66-69.

作者姓名：	刘敏何渝

作者单位：	北京工商大学计算机学院,北京,100037

基金项目：	北京市科技新星计划项目 , 北京市教委科技发展计划项目 , 北京市优秀人才资助计划项目

摘要：	以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.
关键词：	信息抽取 DOM 元数据分装器
文章编号：	1671-1513(2008)03-0066-04
修稿时间：	2007年12月26
RESEARCH ON NEWS INFORMATION EXTRACTION FROM WEB BASED ON META SEARCH ENGINE

LIU Min,HE Yu.RESEARCH ON NEWS INFORMATION EXTRACTION FROM WEB BASED ON META SEARCH ENGINE[J].Journal of Beijing Technology and Business University:Natural Science Edition,2008,26(3):66-69.

Authors:	LIU Min HE Yu

Abstract:	This paper based on DOM and metadata realized a news automatic search and extraction system by using meta search engine technique.First,gets news pages from the web by search engine,after analyzing gets its metadata,then extracts content by using the information that metadata describes.This approach is independent of document structures and domains,which is a universal method.Experimental results show that the extraction precision is higher than 96%.

Keywords:	information extraction document object model metadata wrapper
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏