首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率.  相似文献   

2.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性.  相似文献   

3.
一种实现数据集成中查询重写的方法   总被引:1,自引:0,他引:1  
基于路径映射的XML数据集成系统在查询重写时可能会生成不合理的子查询. 为了让生成的各个子查询中的实体属性是一致的,按照模式之间的路径映射提出了映射依赖的概念,并设计了一种查询重写的方法.重写时依次遍历查询树的各个结点,记录每个中间结果的PC环境,根据启发式规则判断PC环境与当前映射的依赖是否保持一致.并且在时间复杂度上该方法和数据源的数目成线性关系.  相似文献   

4.
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m∶n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高.  相似文献   

5.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

6.
基于简单查询接口的Web数据库模式识别   总被引:1,自引:0,他引:1  
Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。  相似文献   

7.
基于信息量的Web表格信息抽取方法   总被引:1,自引:0,他引:1  
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

8.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

9.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

10.
基于执行日志的Web服务QoS获取机制   总被引:1,自引:0,他引:1  
为了有效地解决Web服务QoS数据的获取问题,从统计学角度出发,提出了一种基于执行日志的Web服务QoS获取方法.该方法首先根据要获取的Web服务QoS属性集,分析执行日志所需记载的内容并记载日志;然后基于执行日志生成Web服务的QoS点数据集,其中考虑了基于实际执行所采集的QoS点数据所具有的采集量小、数据分布不均匀等问题,并给出了相应的解决方法;在此基础上完成对Web服务QoS数据的查询与预测.实验表明,所提出的Web服务QoS数据的获取方法是准确可行的.  相似文献   

11.
0 IntroductionWitmhentth ef oerxp slhosairvineg gr ionwfotrhm oaft itohne iWsW aW k,eythe p rroeqblueirme-.When we deal withthe unprecedented amount of data,we areeasylost in browsing them. Thus , handling these data effi-ciently becomes more difficult than before.Consider the application domain publication retrieval ,which are abundant onthe Web and usually demandlongti meto generate the end-results through the query interfaces pro-vided by search engines .It oftenrequires three steps to de…  相似文献   

12.
随着3D Web技术的成熟与发展,第二代Web离我们越来越近,从3D Web中挖掘多媒体数据是一个新兴的研究领域.提出了一种基于VRML标准的多媒体数据模型——VMDM,该模型能够充分表达3D Web中的多媒体对象的特征,且易于实现,尤其易于可视化的数据挖掘.同时,在此模型基础上,提出了基于兴趣的个性收索方法,并给出了部分算法,最后,给出了基于VMDM模型的3D Web多媒体数据查询语言VMQL,并展望了在该领域将要进一步研究的内容.  相似文献   

13.
文章在深入分析异构Web数据对于统一查询接口的模式匹配问题的基础上,提出一种基于混合决策树的自适应数据集成方法。该方法通过引入可疑实例影响度分析的概念,能够在解决数据源与统一查询接口模式匹配的同时进行可疑实例的划分和分类规则的重列,可提高数据集成的自动化程度及精度;通过在多个领域数据集上的实验结果证明了方法的有效性。  相似文献   

14.
Deep Web数据集成系统中的查询效率优化   总被引:1,自引:0,他引:1  
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。  相似文献   

15.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

16.
对Web网页的查询及信息提取   总被引:4,自引:0,他引:4       下载免费PDF全文
比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 .  相似文献   

17.
To facilitate users to access the desired information, many researches have dedicated to the Deep Web (i.e. Web databases) integration. We focus on query translation which is an important part of the Deep Web integration. Our aim is to construct automatically a set of constraints mapping rules so that the system can translate the query from the integrated interface to the Web database interfaces based on them. We construct a concept hierarchy for the attributes of the query interfaces, especially, store the synonyms and the types (e.g. Number, Text, etc.) for every concept At the same time, we construct the data hierarchies for some concepts if necessary. Then we present an algorithm to generate the constraint mapping rules based on these hierarchies. The approach is suitable for the scalability of such application and can be extended easily from one domain to another for its domain independent feature. The results of experiment show its effectiveness and efficiency.  相似文献   

18.
不同于Surface W eb的信息获取方式,Deep W eb中大量的数据隐藏在数据库中,无法直接通过静态的URL链接来获得,只能在查询接口中输入关键词来获得站点中的网页.主要对Deep W eb中查询数据库时提交的查询操作进行了研究,发展了一种机器学习方法去自动获取Deep W eb的查询语言,并根据迭代算法寻找到合适的网页.  相似文献   

19.
利用支持向量回归确定相关Web查询   总被引:1,自引:0,他引:1  
对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号