首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
采用潜在语义分析实现查询接口特征-文档矩阵降维,利用KNN算法将用户查询接口归属到某个类别,以减少匹配计算的接口数量,最后采用基于Word Net的方法在此类别中进行接口属性匹配,减小属性匹配范围。实验证明,此方法能够实现查询接口的有效匹配。  相似文献   

2.
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m∶n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高.  相似文献   

3.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

4.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

5.
Deep Web在线数据库蕴含大量的信息,但由于这些信息检索困难,利用率不高,本文提出一种基于XML Schema的查询接口分类方法,建立数据查询接口的XML Schema文档,通过各数据源名的语言学相似度实现查询接口的初次分类;根据查询接口标签属性,建立特征-接口向量空间模型实现查询接口向量化,再采用KNN算法进行二次分类,减少KNN算法分类带来的计算开销,提高Deep Web数据检索的效率。  相似文献   

6.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

7.
基于简单查询接口的Web数据库模式识别   总被引:1,自引:0,他引:1  
Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。  相似文献   

8.
关联挖掘在Deep Web查询中的研究与应用   总被引:1,自引:0,他引:1  
对Deep Web进行模式匹配查询时,通常会碰到复杂的模式匹配。由于复杂模式匹配技术在对所有可能联接进行匹配时,需要的空间开销比简单匹配的空间开销大得多,所以现有的模式匹配技术大部停留在简单匹配技术上。为了解决这一难题,本文提出了关联规则挖掘这一方法在复杂匹配中的应用,将模式匹配视为一种关联挖掘,实现web查询接口的匹配,以此将Internet上众多数据库进行集成。  相似文献   

9.
为了减少OLAP中的多表连接,压缩维属性连接关键字,对查询数据进行有效地分组聚集操作,来提高OLAP查询速度.利用维属性具有层次特性对维成员进行编码,生成其维层次编码,来代替维表中原关键字,实现了维表关键字的压缩.通过编码长度较小的维层次编码及其层次前缀路径,对维层次编码进行前缀匹配操作,快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,从而大大减少和简化了事实表与维表之间的多表连接,减少了I/O开销,提高了OLAP查询效率.  相似文献   

10.
本系统是一个建立在关系数据库上的中文自然语言接口系统。借鉴了国内外自然语言数据库接口设计的理论和方法。对汉语处理方法不同于传统方法,所用的语法信息不是传统意义下的词与词的搭配结构,而是属性项的搭配结构,语义信息不是广泛意义下的句子信息,而是面向数据库查询系统的操作语言信息。查询句的分析重点放在对操作语义项的提取,本系统用C语言编写,是一个面向实用的汉语接口系统。  相似文献   

11.
This paper proposes a new approach for classification for query interfaces of Deep Web, which extracts features from the form's text data on the query interfaces, assisted with the synonym library, and uses radial basic function neural network (RBFNN) algorithm to classify the query interfaces. The applied RBFNN is a kind of effective feed-forward artificial neural network, which has a simple networking structure but features with strength of excellent nonlinear approximation, fast convergence and global convergence. A TEL_8 query interfaces' data set from UIUC on-line database is used in our experiments, which consists of 477 query interfaces in 8 typical domains. Experimental results proved that the proposed approach can efficiently classify the query interfaces with an accuracy of 95.67%.  相似文献   

12.
To facilitate users to access the desired information, many researches have dedicated to the Deep Web (i.e. Web databases) integration. We focus on query translation which is an important part of the Deep Web integration. Our aim is to construct automatically a set of constraints mapping rules so that the system can translate the query from the integrated interface to the Web database interfaces based on them. We construct a concept hierarchy for the attributes of the query interfaces, especially, store the synonyms and the types (e.g. Number, Text, etc.) for every concept At the same time, we construct the data hierarchies for some concepts if necessary. Then we present an algorithm to generate the constraint mapping rules based on these hierarchies. The approach is suitable for the scalability of such application and can be extended easily from one domain to another for its domain independent feature. The results of experiment show its effectiveness and efficiency.  相似文献   

13.
A vision based query interface annotation meth od is used to relate attributes and form elements in form based web query interfaces, this method can reach accuracy of 82%. And a user participation method is used to tune the result; user can answer "yes" or "no" for existing annotations, or manually annotate form elements. Mass feedback is added to the annotation algorithm to produce more accurate result. By this approach, query interface annotation can reach a perfect accuracy.  相似文献   

14.
文章在深入分析异构Web数据对于统一查询接口的模式匹配问题的基础上,提出一种基于混合决策树的自适应数据集成方法。该方法通过引入可疑实例影响度分析的概念,能够在解决数据源与统一查询接口模式匹配的同时进行可疑实例的划分和分类规则的重列,可提高数据集成的自动化程度及精度;通过在多个领域数据集上的实验结果证明了方法的有效性。  相似文献   

15.
The following paper provides a new algorithm: a result integration algorithm based on matching strategy. The algorithm extracts the title and the abstract of Web pages, calculates the relevance between the query string and the Web pages, decides the Web pages accepted, rejected and sorts them out in user interfaces. The experiment results in dieate obviously that the new algorithms improve the precision of meta-search engine. This technique is very useful to metasearch engine.  相似文献   

16.
随着语义Web技术和知识图谱的出现,目前查询模式大多要求查询结果与用户查询进行语义级匹配,简单的查询处理过程已经不能满足用户的查询需求.为此,对知识图谱查询涉及的重写技术和实现方法进行了研究,在定义SPARQL(SPARQL Protocol and RDF Query Language)查询模式的重写规则集合基础上,...  相似文献   

17.
为解决偏序域上的skyline查询问题,本文提出一种高效的偏序域上的skyline查询处理方法,来满足人们对查询效率日益增长的需求.首先,为提高偏序域上skyline的查询效率,将倒排索引引入skyline查询,提出一种基于倒排的索引结构.其次,提出基础算法(Basic Partially-ordered Skyline Processing based on inverted index,PSP_B),PSP_B包含两个阶段:第一阶段,能够通过映射将偏序域转化成全序域,并建立倒排索引;第二阶段,通过倒排索引提前找到扫描结束点,得到最终的skyline结果.再次,在PSP_B的基础上,进一步提出优化算法(Improved Partially-ordered Skyline Processing based on inverted index,PSP_I).PSP_I通过先分组再建索引的方法能够进一步提高计算效率.最后,用大量的实验证明本文所提算法的正确性和高效性.  相似文献   

18.
在现有的语义Web服务匹配方法基础上加入服务语义关联匹配度计算,从而提出一种改进的语义服务匹配方法。该方法通过语义关联将一对一匹配淘汰的服务进行组合来实现一对多的服务匹配,在得到的候选服务和候选服务集中进一步计算Web服务的匹配度,经过匹配度的排序,得到最佳匹配度的服务。该方法避免了仅从单一接口参数上进行语义服务匹配,能在一定程度上提高匹配的效率,实现查准率、查全率和查询效率之间的有效平衡。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号