首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于DOM的WEB主题信息抽取   总被引:6,自引:1,他引:6  
随着Internet 的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.  相似文献   

2.
色菲  王佳  潘超 《科技信息》2007,(34):75-75,52
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。  相似文献   

3.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

4.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

5.
在建筑工程项目中,高效的对施工安全进行管理是十分重要的。工程安全事故通告记录了实际施工过程中发生事故的相关信息。但是从业人员对这种非结构化文本进行总结和分析是比较困难的。随着自然语言过程(NLP)技术的快速发展,为了有效地对这一类文本进行处理,许多研究人员已经取得了一些不错的成果。但是现阶段的一个关键问题是深度神经网络的训练需要大规模的训练数据集。并且建筑工程行业中数据来源非常有限,所以数据集对建筑工程行业来说是一个巨大的挑战。本文提出了一个基于自然语言处理的小样本训练方法。首先通过一种基于交叉组合的文本数据增广算法扩大数据集,然后以“字符”为检测单元进行汉字语义编码,使用BiLSTM-CRF模型作为检测核心对文本进行处理。最后,本文以安全事故通告为对象进行分析处理,为施工的安全管理提供了理论指导。  相似文献   

6.
全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率.  相似文献   

7.
中医药领域信息抽取技术的研究与应用   总被引:1,自引:0,他引:1  
通过概述信息抽取技术在电子病历、中医文献和中医药网络资源三个方面的应用及研究现状,指出该技术有利于发挥中医药的利用价值,促进现代中医药的发展。但目前各项研究停留在理论和实验阶段,需提高系统的实用性,建立自动抽取规则,实现全自动的信息抽取。  相似文献   

8.
基于Ajax的Web应用技术的研究与实现   总被引:8,自引:0,他引:8  
Web应用在界面易操作性方面的弱点是制约其应用面的重要因素,Ajax技术是为了克服这些缺点而提出的;采用它实现的页面在易操作性上可以做到与桌面应用相同的效果;因此,其应用也逐渐多起来。介绍了Ajax的基本原理并通过在一个Web系统中的具体实践给出了Ajax的具体应用方法,对于一般的Ajax应用开发具有一定的参考价值。  相似文献   

9.
分析了数据集成过程中需要将集中存放的数据进行拆分实际问题,提出了基于字段的纵向拆分、基于记录的横向拆分和基于表的双向拆分等3种数据集成方法,实现了数据集成和资源共享,其思想对于数据集成的过程中需要将各自分布的数据合并起来的实际问题也有很大意义。  相似文献   

10.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息.  相似文献   

11.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

12.
目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该方法通过提交查询可以在提取数据的同时确定实体的各个属性,根据实体的各个属性进行实体识别.实验表明,该方法具有较高的实体识别准确率.  相似文献   

13.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

14.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

15.
如何高效、准确地组织和检索Deep Web蕴含的高质量信息已经成为未来Web挖掘和数据库领域面临的一项崭新课题和挑战,而Deep Web分类则是Deep Web信息检索的基础.该论文综合论述了Deep Web信息集成的研究概况,重点分析了结构化Deep Web分类的主要方法和存在的主要问题,并且讨论了解决这些问题的可能方法;最后对未来工作进行展望.  相似文献   

16.
Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.  相似文献   

17.
To facilitate users to access the desired information, many researches have dedicated to the Deep Web (i.e. Web databases) integration. We focus on query translation which is an important part of the Deep Web integration. Our aim is to construct automatically a set of constraints mapping rules so that the system can translate the query from the integrated interface to the Web database interfaces based on them. We construct a concept hierarchy for the attributes of the query interfaces, especially, store the synonyms and the types (e.g. Number, Text, etc.) for every concept At the same time, we construct the data hierarchies for some concepts if necessary. Then we present an algorithm to generate the constraint mapping rules based on these hierarchies. The approach is suitable for the scalability of such application and can be extended easily from one domain to another for its domain independent feature. The results of experiment show its effectiveness and efficiency.  相似文献   

18.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

19.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号