首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性.  相似文献   

2.
周旭  赵耀  刘海博 《科技信息》2007,(35):53-54
面对越来越多的在线数据库,Deep Web得到人们的广泛重视,Deep Web资源集成是Deep Web研究的重点内容。本文对一个典型的Deep Web资源集成原型系统--WISE-Integrator进行了系统的分析和介绍。该系统对查询接口的描述、接口抽取和接口整合等Deep Web资源集成的主要问题进行了深入的研究,提出一些切实可行的方法,对于该领域的研究人员具有重要的参考价值。  相似文献   

3.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。  相似文献   

4.
Deep Web的规模和所包含的信息量都在飞速发展。因此Deep Web数据集成已成为一个新的研究热点,文本对deep web数据集成领域的若干问题进行了总结,并对未来的工作进行了展望。  相似文献   

5.
Deep Web查询接口自动识别方法   总被引:1,自引:0,他引:1  
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来获得,自动识别Deep Web查询接口是Deep Web数据集成系统中需要解决的一个关键问题.通过提取适当的表单结构特征,采用C4.5决策树和朴素贝叶斯相结合的分类算法实现对Deep Web查询接口的自动识别,实验验证了该方案的有效性.  相似文献   

6.
如何高效、准确地组织和检索Deep Web蕴含的高质量信息已经成为未来Web挖掘和数据库领域面临的一项崭新课题和挑战,而Deep Web分类则是Deep Web信息检索的基础.该论文综合论述了Deep Web信息集成的研究概况,重点分析了结构化Deep Web分类的主要方法和存在的主要问题,并且讨论了解决这些问题的可能方法;最后对未来工作进行展望.  相似文献   

7.
Deep Web爬虫研究与设计   总被引:10,自引:0,他引:10  
随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的.  相似文献   

8.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.  相似文献   

9.
郭少杰  陈雅冰 《广东科技》2010,19(14):63-65
Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。随着互联网应用的发展,网上的在线数据库大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点。为了方便用户查询数据,对Deep Web技术的应用进行了研究,提出了Deep Web技术在科学数据共享平台中的架构,并阐述了具体的实现。  相似文献   

10.
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m∶n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高.  相似文献   

11.
传统的服务发现技术是建立在语法描述的基础上,主要采用的服务发现机制是WSDL和UDDI规范相结合的解决方案,这些发现方法查准率极其低下,不能很好的满足用户需要。为此,提出了一种支持QOS约束的面向语义的web服务发现机制,给出了web服务发现框架与服务发现算法,从而提高查准率。  相似文献   

12.
面向应用领域的Web服务发现与匹配   总被引:2,自引:2,他引:0  
面向应用领域的Web服务发现的目标是帮助用户找到能够为其构建应用系统提供功能支持的Web服务,从而降低应用系统开发成本、提高开发效率.提出了一种基于功能语义的Web服务发现方法,以支持面向应用领域的Web服务发现需要.通过定义Web服务功能语义描述模型,为服务提供者和用户提供了统一的Web服务描述方法;同时在建立领域功能本体的基础上,依靠语义标注机制,消除服务描述间的语义异构;在此基础上,进一步提出基于功能语义的Web服务发现与匹配策略.实验表明该方法是可行和有效的.  相似文献   

13.
服务质量是Web服务发现中的关键问题.本文提出了一种支持QoS的Web服务发现模型,该模型增加了Qos代理中心机构,并引入监控和反馈机制.在满足用户对Web服务功能需求的基础上,它以服务注册参数、用户反馈信息和实时监测数据为依据结合QoS代理中心的监控器、量化器、选择器、管理器对Web服务的非功能性属性进行量化,实现服...  相似文献   

14.
基于互信息改进算法的新词发现对中文分词系统改进   总被引:6,自引:0,他引:6  
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。  相似文献   

15.
提出了一种基于OWL-S/UDDI的Web服务发现机制,实现了基于语义的Web服务发现。此外,它采用了一种高效的匹配机制,使得查询语义Web服务的效率得到提高。该机制使用自行开发的OWL/UDDI服务发现系统进行了实现和验证。  相似文献   

16.
UDDI与Web服务扩展元数据拓扑映射   总被引:2,自引:0,他引:2  
  相似文献   

17.
一种基于聚类分析的BBS主题发现算法研究   总被引:1,自引:1,他引:0  
针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现.  相似文献   

18.
With the rapid development of the Internet, general-purpose web crawlers have increasingly become unable to meet people's individual needs as they are no longer efficient enough to fetch deep web pages. The presence of several deep web pages in the websites and the widespread use of Ajax make it difficult for generalpurpose web crawlers to fetch information quickly and efficiently. On the basis of the original Robots Exclusion Protocol(REP), a Robots Exclusion and Guidance Protocol(REGP) is proposed in this paper, by integrating the independent scattered expansions of the original Robots Protocol developed by major search engine companies.Our protocol expands the file format and command set of the REP as well as two labels of the Sitemap Protocol.Through our protocol, websites can express their aspects of requirements for restrictions and guidance to the visiting crawlers, and provide a general-purpose fast access of deep web pages and Ajax pages for the crawlers,and facilitates crawlers to easily obtain the open data on websites effectively with ease. Finally, this paper presents a specific application scenario, in which both a website and a crawler work with support from our protocol. A series of experiments are also conducted to demonstrate the efficiency of the proposed protocol.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号