共查询到20条相似文献,搜索用时 9 毫秒
1.
李洋 《大众科学.科学研究与实践》2007,(24)
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。 相似文献
2.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 相似文献
3.
Web信息抽取策略及其实现方法研究 总被引:2,自引:0,他引:2
陈俊彬 《科技情报开发与经济》2008,18(23):169-170
从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。 相似文献
4.
5.
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取. 相似文献
6.
基于DOM的Web信息抽取方法研究 总被引:1,自引:0,他引:1
李洋 《大众科学.科学研究与实践》2007,(20)
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。 相似文献
7.
开放式Web信息抽取系统研究与实现 总被引:2,自引:0,他引:2
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的"硬编码",而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围. 相似文献
8.
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。 相似文献
9.
基于样本实例的Web信息抽取 总被引:13,自引:1,他引:13
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器. 相似文献
10.
基于 DOM 的 Web 信息抽取规则的构造与实现 总被引:1,自引:0,他引:1
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. 相似文献
11.
传统的Web包装器语言通过单一的路径表示方法对数据在HTML页面中的位置进行定位。当页面的变化超出其容忍范围时,只能由人工或者智能程序重新生成包装器脚本。本文提供了一种基于交叉定位的数据定位方法,当HTML页面发生变化时,在包装器层次上实现包装器脚本的自我修复。实验结果表明,使用交叉定位的Web包装器在没有降低信息抽取性能的情况下,大幅提高了包装器脚本对HTML页面变化的容忍度。 相似文献
12.
Web信息抽取技术研究进展 总被引:14,自引:0,他引:14
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题. 相似文献
13.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 相似文献
14.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率. 相似文献
15.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性. 相似文献
16.
基于信息量的Web表格信息抽取方法 总被引:1,自引:0,他引:1
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取. 相似文献
17.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高. 相似文献
18.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。 相似文献
19.
基于混合条件模型的Web信息抽取 总被引:2,自引:0,他引:2
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能. 相似文献
20.
提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。 相似文献