期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于 DOM 的 Web 信息抽取规则的构造与实现 总被引：1，自引：0，他引：1

杨敬伟杨文柱高悦《河北大学学报(自然科学版)》2007,27(2):209-212

为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. 相似文献

2.

陈晓锋张凌董守斌《郑州大学学报(理学版)》2007,39(2):161-166

研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. 相似文献

3.

基于树形结构的Web信息抽取

任仲晟薛永生《福建师范大学学报(自然科学版)》2009,25(3)

提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 相似文献

4.

基于单元识别的网页信息抽取方法

柳永念钟诚焦小焦《广西大学学报(自然科学版)》2011,36(5):787-791

建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率. 相似文献

5.

基于样本实例的Web信息抽取 总被引：14，自引：1，他引：13

张绍华徐林昊杨文柱薛文玲李天柱《河北大学学报(自然科学版)》2001,21(4):431-437

主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器. 相似文献

6.

一种自适应的Web信息抽取规则自动生成方法

黄锋吴华瑞《广西师范大学学报(自然科学版)》2010,28(1)

提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。相似文献

7.

一种新的Web信息抽取方法研究

李洋栾吉华《科技资讯》2007,(35):80-81

以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取. 相似文献

8.

最小节点信息树抽取规则及可视化生成方法

霍滨焱《应用科技》2009,36(7):37-40

提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率．设计并实现了一种最小节点信息树抽取规则的可视化实现方法．相似文献

9.

基于DOM的动态网页信息抽取方法

王平根《科技信息》2010,(31):I0054-I0054,I0059

动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。相似文献

10.

基于DOM的Web信息抽取方法研究 总被引：1，自引：0，他引：1

李洋《大众科学.科学研究与实践》2007,(20)

以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。相似文献