首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
为了有效地利用Deep Web资源,Deep Web数据集成成为当前研究的热点之一.能否高效地发现Deep Web站点是Deep Web数据集成的基础和关键.在此,提出了一种Deep Web接口发现方法,包括基于领域知识来确定合适的查询提交词和用启发式规则发现领域内Deep Web接口.实验结果表明,该方法达到了较高的准确率和召回率,具有良好的可行性和实用性.  相似文献   

2.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

3.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性.  相似文献   

4.
如何高效、准确地组织和检索Deep Web蕴含的高质量信息已经成为未来Web挖掘和数据库领域面临的一项崭新课题和挑战,而Deep Web分类则是Deep Web信息检索的基础.该论文综合论述了Deep Web信息集成的研究概况,重点分析了结构化Deep Web分类的主要方法和存在的主要问题,并且讨论了解决这些问题的可能方法;最后对未来工作进行展望.  相似文献   

5.
Deep Web查询接口自动识别方法   总被引:1,自引:0,他引:1  
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来获得,自动识别Deep Web查询接口是Deep Web数据集成系统中需要解决的一个关键问题.通过提取适当的表单结构特征,采用C4.5决策树和朴素贝叶斯相结合的分类算法实现对Deep Web查询接口的自动识别,实验验证了该方案的有效性.  相似文献   

6.
Deep Web的规模和所包含的信息量都在飞速发展。因此Deep Web数据集成已成为一个新的研究热点,文本对deep web数据集成领域的若干问题进行了总结,并对未来的工作进行了展望。  相似文献   

7.
在Internet技术飞速发展的今天,人们对依靠Web引擎搜索可用信息的实效性、快捷性的研究在不断的深入。然而许多Web信息已经被各种各样可搜索的在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——Deep Web信息。由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件具有挑战性的工作。因此,本文分别提出了基于Deep Web查询接口的Deep Web数据源聚类和分类算法,为Deep Web信息检索方法的研究提供了一定的理论依据。  相似文献   

8.
郭少杰  陈雅冰 《广东科技》2010,19(14):63-65
Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。随着互联网应用的发展,网上的在线数据库大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点。为了方便用户查询数据,对Deep Web技术的应用进行了研究,提出了Deep Web技术在科学数据共享平台中的架构,并阐述了具体的实现。  相似文献   

9.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

10.
Web Service可解决不同体系数据管理系统间的数据交流问题.本文给出一套基于Web Service技术的多系统数据集成方案,在此方案中设计了学生处学生信息接口、教务处考试成绩接口、图书馆Marc数据接口,并最终给出一个基于Web Service的校园数据集成系统,以较低成本解决了多个管理系统间数据集成的问题,为基于现有数据资源进行数据分析和挖掘提供了一个良好的基础.  相似文献   

11.
Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.  相似文献   

12.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.  相似文献   

13.
Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率.  相似文献   

14.
门户系统的是一个应用集成的框架,它可以为企业提供一个单一的访问其各种信息资源的入口,企业的员工、客户、合作伙伴和供应商等都可以通过这个门户获得个性化的信息和服务。以高校人力资源管理系统为例研究了其与门户系统的接口方式。文中首先分析了人力资源管理系统与门户系统接口的特殊性,它是信息的使用者又是信息的提供者;提出了3种基本的接口方案,经过对3种方案的比较分析,确定Web Service方案为最优的解决方案;同时,考虑到校园门户系统的主要对校园内部各种应用的集成,对接口细节进行了修改,提出了一种改进的基于Web Service的接口方案;最后,为了更好的改善系统实时性,对该方案进行了进一步的扩充。经过扩充后的接口方案能够很好地满足高校门户系统信息安全性及实时性的要求。  相似文献   

15.
Deep Web在线数据库蕴含大量的信息,但由于这些信息检索困难,利用率不高,本文提出一种基于XML Schema的查询接口分类方法,建立数据查询接口的XML Schema文档,通过各数据源名的语言学相似度实现查询接口的初次分类;根据查询接口标签属性,建立特征-接口向量空间模型实现查询接口向量化,再采用KNN算法进行二次分类,减少KNN算法分类带来的计算开销,提高Deep Web数据检索的效率。  相似文献   

16.
利用Apriori算法对Deep Web网站中最大频繁关联关系网页进行识别,并对非最大频繁项网页进行剪枝,再遍历Deep Web网站网页,从而获取所有最大频繁关联关系网页。对某房地产Deep Web网站的实验结果验证了该算法的可行性和有效性。  相似文献   

17.
李强 《甘肃科技》2012,28(3):27-29
Internet的发展,为我们提供了海量的信息资源,但由于Web的复杂性,目前传统的搜索引擎只能检索出其中一部分信息.大量的隐藏信息对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单中,存在于大型的数据库.用户必须通过查询其后端的数据库才能获得这些Deep Web信息.首先介绍了Deep Web引擎的一般原理,列举了目前Deep Web的流行技术,以及Deep Web搜索引擎的研究现状,并给出了Deep Web搜索引擎的完整实现内容框架,同时探讨了数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合等4个实现Deep Web搜索引擎的关键技术.  相似文献   

18.
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性.  相似文献   

19.
为了最大限度地获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据源集成工作以及用户的检索使用,提出了一种基于数据库的实时的Deep Web数据源搜索框架,该模型在本地服务器上设计安装"数据源发现应用程序"模块,通过各搜索网站下载安装的"客户端数据源应用程序"模块实现数据信息的对接和实时传送.为了保证检索效率,利用知网结合同义词词林对各大被检索网站进行分类.  相似文献   

20.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号