共查询到10条相似文献,搜索用时 31 毫秒
1.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性. 相似文献
2.
Deep Web爬虫研究与设计 总被引:10,自引:0,他引:10
随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的. 相似文献
3.
不同于Surface W eb的信息获取方式,Deep W eb中大量的数据隐藏在数据库中,无法直接通过静态的URL链接来获得,只能在查询接口中输入关键词来获得站点中的网页.主要对Deep W eb中查询数据库时提交的查询操作进行了研究,发展了一种机器学习方法去自动获取Deep W eb的查询语言,并根据迭代算法寻找到合适的网页. 相似文献
4.
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性. 相似文献
5.
Deep Web查询接口自动识别方法 总被引:1,自引:0,他引:1
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来获得,自动识别Deep Web查询接口是Deep Web数据集成系统中需要解决的一个关键问题.通过提取适当的表单结构特征,采用C4.5决策树和朴素贝叶斯相结合的分类算法实现对Deep Web查询接口的自动识别,实验验证了该方案的有效性. 相似文献
6.
Internet的发展,为我们提供了海量的信息资源,但由于Web的复杂性,目前传统的搜索引擎只能检索出其中一部分信息.大量的隐藏信息对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单中,存在于大型的数据库.用户必须通过查询其后端的数据库才能获得这些Deep Web信息.首先介绍了Deep Web引擎的一般原理,列举了目前Deep Web的流行技术,以及Deep Web搜索引擎的研究现状,并给出了Deep Web搜索引擎的完整实现内容框架,同时探讨了数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合等4个实现Deep Web搜索引擎的关键技术. 相似文献
7.
8.
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。 相似文献
9.
为了有效地利用Deep Web资源,Deep Web数据集成成为当前研究的热点之一.能否高效地发现Deep Web站点是Deep Web数据集成的基础和关键.在此,提出了一种Deep Web接口发现方法,包括基于领域知识来确定合适的查询提交词和用启发式规则发现领域内Deep Web接口.实验结果表明,该方法达到了较高的准确率和召回率,具有良好的可行性和实用性. 相似文献
10.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性. 相似文献