首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于DOM的半结构化网页信息抽取算法   总被引:1,自引:0,他引:1  
为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模武的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法.该系统可以从多个学术论文检索网站中自动获取结果网页。并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。  相似文献   

2.
基于DOM的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。  相似文献   

3.
基于 DOM 的 Web 信息抽取规则的构造与实现   总被引:1,自引:0,他引:1  
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.  相似文献   

4.
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.  相似文献   

5.
基于DOM树及行文本统计去噪的网页文本抽取技术   总被引:1,自引:0,他引:1  
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。  相似文献   

6.
黄荣 《科技信息》2011,(4):250-251
本文说明了网页主题信息提取的意义,并描述了常用的抽取方法及其存在的主要问题。在此基础上提出了一个新的基于模板的抽取方法,并结合实例分析了如何运用该模型构建电子军务信息提取系统。  相似文献   

7.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。  相似文献   

8.
为了提高分布式融合集成网络网页信息资源定向抽取能力,提出基于卷积神经网络的分布式融合集成网络网页信息资源定向抽取方法.构建分布式融合集成网络网页信息的自适应聚类处理模型,获得分布式融合集成网络网页信息数据集合,采用多重属性调度的方法,建立高分布式融合集成网络网页信息检测的模糊度训练集,实现对网页信息资源的模糊参数辨识与...  相似文献   

9.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

10.
基于广义隐马尔可夫模型的网页信息抽取方法   总被引:2,自引:0,他引:2  
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。  相似文献   

11.
李洋  栾吉华 《科技资讯》2007,(35):80-81
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取.  相似文献   

12.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

13.
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率.  相似文献   

14.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

15.
多语种投资信息抽取系统的实现   总被引:1,自引:0,他引:1  
多语种投资信息抽取实验系统可以用中文、英文和德文的关键字或限定的自然语言问句查询语料库中的中文投资信息.它由语言处理模块、查询处理模块、信息抽取核心和动态交互获取模块组成.其主要特点:基于语种无关的模板和与语种有关的模式,实现不同语种信息抽取处理的一致性;事先定义的抽取模板结合动态获取的模板,来弥补信息抽取技术依赖于固定模板的缺陷,增加系统的健壮性.系统抽取的各个槽的平均精度为86.27%.动态获取模板的精度为85.27%,如果人工对约5个例句修改,动态交互获取模板的精度可达88.55%,提高了3%左右.  相似文献   

16.
以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.  相似文献   

17.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

18.
介绍了基于索引路径的数据抽取算法的不足,从代码角度和用户需求角度2个方面进行考虑,提出了一种进改良措施,有效地提升了数据抽取的准确率,从而大大减少了数据冗余.由于补充了记录、有效数据等定义,使得抽取出的数据仍然保有其在网页中的结构关系,为之后的语义标注工作带来了极大的方便,为深度网页(Deep Web)数据集成奠定了良好的基础.  相似文献   

19.
利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。  相似文献   

20.
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号