首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
将本体与和Web信息抽取技术相结合,将信息抽取的重点放在特定的领域,利用表格属性定位、识别表格结构生成启发式规则,可以大大提高信息抽取的准确率。  相似文献   

2.
色菲  王佳  潘超 《科技信息》2007,(34):75-75,52
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。  相似文献   

3.
在数字图书馆建设过程中,为有效利用早期直接存储于HTML表格中的图书资料信息,提出了一种将HTML表格转换为XML文档的方法。该方法利用HTML表格的格式化信息及其蕴涵的结构信息,对HTML表格的语义层次进行理解,然后将HTML表格数据转储于关系数据库中,最后利用关系数据库对XML文档的支持将数据库文件转换为XML文档。  相似文献   

4.
基于XML的多数据库系统集成数据模型   总被引:2,自引:0,他引:2  
随着网络信息的大量积累,如何充分利用网络资源已成为一个亟待解决的问题,将数据库技术应用到Web数据中是一种较好的解决办法,而其中则牵涉到Web数据的结构抽取以及采用什么形式描述这种结构。基于上述情况,提出了如何将一个典型的半结构化数据(HTML网页)经过模式抽取并转换为XIDM描述形式的方法,从而实现了自行研制的多数据库系统Panorama与文件系统的集成。  相似文献   

5.
基于信息量的Web表格信息抽取方法   总被引:1,自引:0,他引:1  
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

6.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。  相似文献   

7.
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。  相似文献   

8.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

9.
自动获取HTML表格语义层次结构方法   总被引:3,自引:0,他引:3  
针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法。该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构。方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构。实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好。  相似文献   

10.
谭锋 《科技资讯》2011,(7):5-5,7
针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法.  相似文献   

11.
12.
一种新的Web链接提取模型   总被引:4,自引:0,他引:4  
以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。  相似文献   

13.
基于RSS2.0技术,设计了校园新闻信息的提取与发布方案.该方案采用HTML标签与正则表达式相结合的提取方法,通过建立提取过程函数,并将过程函数类化,然后将引用类与RSS2.0规范相结合,生成RSS文档,最终实现RSS文档的生成与发布.  相似文献   

14.
传统的Web包装器语言通过单一的路径表示方法对数据在HTML页面中的位置进行定位。当页面的变化超出其容忍范围时,只能由人工或者智能程序重新生成包装器脚本。本文提供了一种基于交叉定位的数据定位方法,当HTML页面发生变化时,在包装器层次上实现包装器脚本的自我修复。实验结果表明,使用交叉定位的Web包装器在没有降低信息抽取性能的情况下,大幅提高了包装器脚本对HTML页面变化的容忍度。  相似文献   

15.
随着网络技术的迅速发展,许多数据信息要求输出为HTML格式文件在网上进行浏览,以解决数据共享的问题。本文介绍了利用转换类库和FrontPage2000与VFP编程,把数据库内容转换为HTML格式文件的两种方法。  相似文献   

16.
The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号