首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 312 毫秒
1.
Deep Web查询接口自动识别方法   总被引:1,自引:0,他引:1  
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来获得,自动识别Deep Web查询接口是Deep Web数据集成系统中需要解决的一个关键问题.通过提取适当的表单结构特征,采用C4.5决策树和朴素贝叶斯相结合的分类算法实现对Deep Web查询接口的自动识别,实验验证了该方案的有效性.  相似文献   

2.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性.  相似文献   

3.
在Internet技术飞速发展的今天,人们对依靠Web引擎搜索可用信息的实效性、快捷性的研究在不断的深入。然而许多Web信息已经被各种各样可搜索的在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——Deep Web信息。由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件具有挑战性的工作。因此,本文分别提出了基于Deep Web查询接口的Deep Web数据源聚类和分类算法,为Deep Web信息检索方法的研究提供了一定的理论依据。  相似文献   

4.
Deep Web在线数据库蕴含大量的信息,但由于这些信息检索困难,利用率不高,本文提出一种基于XML Schema的查询接口分类方法,建立数据查询接口的XML Schema文档,通过各数据源名的语言学相似度实现查询接口的初次分类;根据查询接口标签属性,建立特征-接口向量空间模型实现查询接口向量化,再采用KNN算法进行二次分类,减少KNN算法分类带来的计算开销,提高Deep Web数据检索的效率。  相似文献   

5.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

6.
Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.  相似文献   

7.
为了用户方便快速地使用Deep Web中的信息,对在线数据库中的内容进行获取是一种行之有效的方法.本文设计了一种基于领域本体的Deep Web数据库内容获取技术,利用训练数据库训练构建领域本体,通过领域本体中的有效查询项获得查询关键字集,对数据库内容进行查询,最终获得Deep Web内容.通过实验证明,该方法能育效地获...  相似文献   

8.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.  相似文献   

9.
郭少杰  陈雅冰 《广东科技》2010,19(14):63-65
Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。随着互联网应用的发展,网上的在线数据库大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点。为了方便用户查询数据,对Deep Web技术的应用进行了研究,提出了Deep Web技术在科学数据共享平台中的架构,并阐述了具体的实现。  相似文献   

10.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

11.
To facilitate users to access the desired information, many researches have dedicated to the Deep Web (i.e. Web databases) integration. We focus on query translation which is an important part of the Deep Web integration. Our aim is to construct automatically a set of constraints mapping rules so that the system can translate the query from the integrated interface to the Web database interfaces based on them. We construct a concept hierarchy for the attributes of the query interfaces, especially, store the synonyms and the types (e.g. Number, Text, etc.) for every concept At the same time, we construct the data hierarchies for some concepts if necessary. Then we present an algorithm to generate the constraint mapping rules based on these hierarchies. The approach is suitable for the scalability of such application and can be extended easily from one domain to another for its domain independent feature. The results of experiment show its effectiveness and efficiency.  相似文献   

12.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

13.
Deep Web sources contain a large of high-quality and query-related structured date. One of the challenges in the Deep Web is extracting result schemas of Deep Web sources. To address this challenge, this paper describes a novel approach that extracts both result data and the result schema of a Web database. The approach first models the query interface of a Deep Web source and fills in it with a specifically query instance. Then the result pages of the Deep Web sources are formatted in the tree structure to retrieve subtrees that contain elements of the query instance, Next, result schema of the Deep Web source is extracted by matching the subtree' nodes with the query instance, in which, a two-phase schema extraction method is adopted for obtaining more accurate result schema. Finally, experiments on real Deep Web sources show the utility of our approach, which provides a high precision and recall.  相似文献   

14.
为了有效地利用Deep Web资源,Deep Web数据集成成为当前研究的热点之一.能否高效地发现Deep Web站点是Deep Web数据集成的基础和关键.在此,提出了一种Deep Web接口发现方法,包括基于领域知识来确定合适的查询提交词和用启发式规则发现领域内Deep Web接口.实验结果表明,该方法达到了较高的准确率和召回率,具有良好的可行性和实用性.  相似文献   

15.
不同于Surface W eb的信息获取方式,Deep W eb中大量的数据隐藏在数据库中,无法直接通过静态的URL链接来获得,只能在查询接口中输入关键词来获得站点中的网页.主要对Deep W eb中查询数据库时提交的查询操作进行了研究,发展了一种机器学习方法去自动获取Deep W eb的查询语言,并根据迭代算法寻找到合适的网页.  相似文献   

16.
Caching is an important technique to enhance the efficiency of query processing. Unfortunately, traditional caching mechanisms are not efficient for deep Web because of storage space and dynamic maintenance limitations. In this paper, we present on providing a cache mechanism based on Top-K data source (KDS-CM) instead of result records for deep Web query. By integrating techniques from IR and Top-K, a data reorganization strategy is presented to model KDS-CM. Also some measures about cache management and optimization are proposed to improve the performances of cache effectively. Experimental results show the benefits of KDS-CM in execution cost and dynamic maintenance when compared with various alternate strategies.  相似文献   

17.
如何高效、准确地组织和检索Deep Web蕴含的高质量信息已经成为未来Web挖掘和数据库领域面临的一项崭新课题和挑战,而Deep Web分类则是Deep Web信息检索的基础.该论文综合论述了Deep Web信息集成的研究概况,重点分析了结构化Deep Web分类的主要方法和存在的主要问题,并且讨论了解决这些问题的可能方法;最后对未来工作进行展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号