首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了有效地利用Deep Web资源,Deep Web数据集成成为当前研究的热点之一.能否高效地发现Deep Web站点是Deep Web数据集成的基础和关键.在此,提出了一种Deep Web接口发现方法,包括基于领域知识来确定合适的查询提交词和用启发式规则发现领域内Deep Web接口.实验结果表明,该方法达到了较高的准确率和召回率,具有良好的可行性和实用性.  相似文献   

2.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

3.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

4.
This paper proposes a new approach for classification for query interfaces of Deep Web, which extracts features from the form's text data on the query interfaces, assisted with the synonym library, and uses radial basic function neural network (RBFNN) algorithm to classify the query interfaces. The applied RBFNN is a kind of effective feed-forward artificial neural network, which has a simple networking structure but features with strength of excellent nonlinear approximation, fast convergence and global convergence. A TEL_8 query interfaces' data set from UIUC on-line database is used in our experiments, which consists of 477 query interfaces in 8 typical domains. Experimental results proved that the proposed approach can efficiently classify the query interfaces with an accuracy of 95.67%.  相似文献   

5.
Deep Web数据集成系统中的查询效率优化   总被引:1,自引:0,他引:1  
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。  相似文献   

6.
Deep Web sources contain a large of high-quality and query-related structured date. One of the challenges in the Deep Web is extracting result schemas of Deep Web sources. To address this challenge, this paper describes a novel approach that extracts both result data and the result schema of a Web database. The approach first models the query interface of a Deep Web source and fills in it with a specifically query instance. Then the result pages of the Deep Web sources are formatted in the tree structure to retrieve subtrees that contain elements of the query instance, Next, result schema of the Deep Web source is extracted by matching the subtree' nodes with the query instance, in which, a two-phase schema extraction method is adopted for obtaining more accurate result schema. Finally, experiments on real Deep Web sources show the utility of our approach, which provides a high precision and recall.  相似文献   

7.
一种基于语义网技术和本体的数据集成方法   总被引:2,自引:0,他引:2  
研究语义网技术在数据集成中的应用方法。采用规则系统实现对语义网本体语言的扩展,以提高本体语言的表达能力。在此基础上将语义网相关技术系统地应用到数据集成系统的各个方面,包括数据采集、本体构建、本体映射、数据查询和数据持久化。通过一个实例,展示了上述方法的可行性。  相似文献   

8.
文章在深入分析异构Web数据对于统一查询接口的模式匹配问题的基础上,提出一种基于混合决策树的自适应数据集成方法。该方法通过引入可疑实例影响度分析的概念,能够在解决数据源与统一查询接口模式匹配的同时进行可疑实例的划分和分类规则的重列,可提高数据集成的自动化程度及精度;通过在多个领域数据集上的实验结果证明了方法的有效性。  相似文献   

9.
A vision based query interface annotation meth od is used to relate attributes and form elements in form based web query interfaces, this method can reach accuracy of 82%. And a user participation method is used to tune the result; user can answer "yes" or "no" for existing annotations, or manually annotate form elements. Mass feedback is added to the annotation algorithm to produce more accurate result. By this approach, query interface annotation can reach a perfect accuracy.  相似文献   

10.
Caching is an important technique to enhance the efficiency of query processing. Unfortunately, traditional caching mechanisms are not efficient for deep Web because of storage space and dynamic maintenance limitations. In this paper, we present on providing a cache mechanism based on Top-K data source (KDS-CM) instead of result records for deep Web query. By integrating techniques from IR and Top-K, a data reorganization strategy is presented to model KDS-CM. Also some measures about cache management and optimization are proposed to improve the performances of cache effectively. Experimental results show the benefits of KDS-CM in execution cost and dynamic maintenance when compared with various alternate strategies.  相似文献   

11.
The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research areas, including Web mining and data warehouse, Deep Web and Web integration, P2P networks, text processing and information retrieval, as well as Web Services and Web infrastructure. After briefly introducing the WISA conference, the survey outlines the current activities and future trends concerning Web information systems and applications based on the papers accepted for publication.  相似文献   

12.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

13.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

14.
Deep web中用户需通过查询接口才能得到其中的数据,查询接口一般形成属性间m:n复杂模式匹配。为统一相同领域的查询接口,本文提出了一个基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性。  相似文献   

15.
为了提高语义Web查询的查全率和查准率,文中提出了一种基于形式化领域本体的查询处理方法.首先采用描述逻辑表达领域本体的语法和语义,实现领域本体的形式化转换;然后基于转换后的形式化领域本体,采用含半幺群概括演算作为基于形式化领域本体查询转换的目标语言,定义了用户查询到含半幺群同态查询的转换规则和语义优化处理、查询重写规则,最后通过实验验证了该方法的查询性能.  相似文献   

16.
不同于Surface W eb的信息获取方式,Deep W eb中大量的数据隐藏在数据库中,无法直接通过静态的URL链接来获得,只能在查询接口中输入关键词来获得站点中的网页.主要对Deep W eb中查询数据库时提交的查询操作进行了研究,发展了一种机器学习方法去自动获取Deep W eb的查询语言,并根据迭代算法寻找到合适的网页.  相似文献   

17.
在引入并实现本体映射的基础上,基于Q语言(一种设计代理(Agent)和用户交互的场景描述语言),提出了一个语义Web上多Agent信息互操作查询系统.该系统由领域本体服务器、本体映射服务器、语义信息源、以及多Agent查询系统组成.映射服务器通过映射规则提供概念转换功能,Q用于描述和统一多Agent查询系统中的Agent到Agent以及人到Agent的交互.系统结构的原型实现表明:通过Q场景(scenarios),终端用户可以灵活和交互地控制多个Agent的行为,以实现信息互操作查询.  相似文献   

18.
全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率.  相似文献   

19.
基于本体的多源异构XML数据近似查询方法   总被引:2,自引:0,他引:2  
提出了一种基于本体的面向多源异构可扩展置标语言(XML)的近似查询方法.该方法将传统的基于查询模式树松弛的近似查询策略与基于本体的XML数据集成思想相融合,首先建立文档类型定义结构与全局模式的映射模型(PTO),再将PTO与近似查询领域的松弛操作、打分机制相结合,提出了一种新的XML近似查询算法——OAXQ.这样,用户在全局模式下的查询语言不再是Xpath查询表达式,而是对象查询语言的一个简单子集,松弛的产生不再依靠查询模式树的变换,而是通过一系列映射规则转化而成.汽车外型的智能设计实验表明,OAXQ算法的查询速度比单纯基于查询模式树松弛策略的静态有序选择算法平均提高了20倍,查询准确度提高了2%~24%.  相似文献   

20.
基于简单查询接口的Web数据库模式识别   总被引:1,自引:0,他引:1  
Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号