首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于文档结构的信息抽取规则的描述语言比较研究
引用本文:张志强,李天柱,张波,陈少飞,郝亚南.基于文档结构的信息抽取规则的描述语言比较研究[J].河北大学学报(自然科学版),2004,24(2):212-218.
作者姓名:张志强  李天柱  张波  陈少飞  郝亚南
作者单位:河北大学,数学与计算机学院,河北,保定,071002
摘    要:基于文档结构的信息抽取工具很多,XWrap,W4F,Lixto以及自主开发的PQagent是其中比较有代表性的几个.这几个工具采用了不同的规则描述形式,XWrap,W4F,Lixto使用的是自定义的规则描述形式,PQagent采用了通用的规范XQuery来描述规则.现将XWrap,W4F,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较,说明了采用XQuery描述抽取规则的优越性.

关 键 词:信息抽取  抽取规则  描述语言  XQuery  
文章编号:1000-1565(2004)02-0212-07
修稿时间:2003年11月2日

Describe Languages' Comparing for Web Information Extraction Rules Based on Page Structure
ZHANG Zhi-qiang,LI Tian-zhu,ZHANG Bo,CHEN Shao-fei,HAO Ya-nan.Describe Languages' Comparing for Web Information Extraction Rules Based on Page Structure[J].Journal of Hebei University (Natural Science Edition),2004,24(2):212-218.
Authors:ZHANG Zhi-qiang  LI Tian-zhu  ZHANG Bo  CHEN Shao-fei  HAO Ya-nan
Abstract:There are many information extraction tools based on structure.Among them,XWrap,W4F,Lixto and PQagent which is developed by ourself are pretty representative.Each one uses a different way to describe their extraction rules.XWrap,W4F and Lixto predefine different ways to describe their rules,as while PQagent using the universal criterion--XQuery.Here,XQuery is compared with the ways respectively used by XWrap,W4F and Lixto,and conclusion is drawn that there is more advantage to use XQuery.
Keywords:information extraction  extraction rule  describe languages  XQuery
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《河北大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《河北大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号