共查询到20条相似文献,搜索用时 15 毫秒
1.
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取. 相似文献
2.
基于 DOM 的 Web 信息抽取规则的构造与实现 总被引:1,自引:0,他引:1
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. 相似文献
3.
李洋 《大众科学.科学研究与实践》2007,(24)
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。 相似文献
4.
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。 相似文献
5.
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. 相似文献
6.
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。 相似文献
7.
8.
基于DOM的半结构化网页信息抽取算法 总被引:1,自引:0,他引:1
李卫东 《河北省科学院学报》2009,26(1):21-24
为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模武的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法.该系统可以从多个学术论文检索网站中自动获取结果网页。并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。 相似文献
9.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 相似文献
10.
Web信息抽取策略及其实现方法研究 总被引:2,自引:0,他引:2
陈俊彬 《科技情报开发与经济》2008,18(23):169-170
从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。 相似文献
11.
基于样本实例的Web信息抽取 总被引:14,自引:1,他引:13
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器. 相似文献
12.
基于信息量的Web表格信息抽取方法 总被引:1,自引:0,他引:1
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取. 相似文献
13.
14.
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法. 相似文献
15.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。 相似文献
16.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 相似文献
17.
开放式Web信息抽取系统研究与实现 总被引:2,自引:0,他引:2
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的"硬编码",而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围. 相似文献
18.
一种Web信息抽取规则的优化方法 总被引:2,自引:0,他引:2
提出一种Web信息抽取规则的优化方法,用于提高信息抽取的效率.采用分级制的思想,将原有规则中的限制条件分为粗规则和细规则两部分.粗规则面向网页中所有的信息片断,用于信息的初步过滤;细规则面向过滤后的信息片断,用于抽取最终的信息.由此,避免了将规则中的限制条件应用于网页中的所有信息片断,达到了减少计算量、提高抽取速度的目的. 相似文献
19.
Web信息抽取技术研究进展 总被引:14,自引:0,他引:14
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题. 相似文献
20.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性. 相似文献