共查询到20条相似文献,搜索用时 109 毫秒
1.
Internet的发展,为我们提供了海量的信息资源,但由于Web的复杂性,目前传统的搜索引擎只能检索出其中一部分信息.大量的隐藏信息对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单中,存在于大型的数据库.用户必须通过查询其后端的数据库才能获得这些Deep Web信息.首先介绍了Deep Web引擎的一般原理,列举了目前Deep Web的流行技术,以及Deep Web搜索引擎的研究现状,并给出了Deep Web搜索引擎的完整实现内容框架,同时探讨了数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合等4个实现Deep Web搜索引擎的关键技术. 相似文献
2.
3.
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。 相似文献
4.
5.
《漳州师范学院学报》2010,(4)
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接. 相似文献
6.
Deep Web爬虫研究与设计 总被引:10,自引:0,他引:10
随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的. 相似文献
7.
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。 相似文献
8.
针对传统搜索方式和查询界面的不足,提出了基于Deep Web 的地图搜索系统框架,前台采用活动地图与用户进行交互,后台采用领域本体和Deep Web 爬虫进行识别和相关信息的收集。此系统应用于与地理位置相关的主题信息类网站,使用户能够直观便捷地搜索到所需的信息,提出了一种信息搜索的新思路。 相似文献
9.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。 相似文献
10.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件. 相似文献
11.
使Web信息检索发展到一个新的水平。对Web数据挖掘技术作了概要的介绍,分析了Web信息检索的现状。针对Web信息检索的一些不足,提出了一些观点。将数据挖掘技术的研究成果应用到Web信息检索中,提高了Web信息检索的效率和质量。 相似文献
12.
Web信息的急剧增长使搜索引擎专用化成为发展趋势。重点论述了主题搜索引擎的信息采集策略,并给出了一种比较理想的建筑业信息搜索引擎设计方案。 相似文献
13.
Web搜索引擎分析设计和实现 总被引:2,自引:0,他引:2
随着Internet在中国的迅速普及,人们在网上进行学习交流、查找所需信息的频度越来越大。但同时,伴着网上信息量的迅速膨胀,如何快速查找并收集所需的信息也成为一个不可忽视的课题。本文主要针对Web搜索引擎的设计及实现作出了分析和研究。 相似文献
14.
15.
针对网络上各种信息混杂、信息传播速度快、有害信息混杂其中、网络舆情治理难的问题,为及时搜索网络信息提供一个搜索服务平台。实现了基于ElasticSearch为搜索引擎,提供通过关键字搜索舆情信息的服务,并使用JavaWeb技术进行功能的实现。该平台同时具有实用性和可扩展性,对于类似的搜索平台有着借鉴意义。 相似文献
16.
基于结构与内容的网页主题信息提取研究 总被引:11,自引:0,他引:11
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想. 相似文献
17.
提出了一种新的基于XML Web Service的FTP文件搜索技术,通过在FTP服务器和检索服务器分别部署Web服务,可以实现跨越防火墙的FTP搜索,实时的文件更新登记保证了检索结果的有效性,Web服务的系统架构为实现更大范围的分布式搜索建立了良好的基础。利用FTP服务器端的Web服务可以加强对文件服务的管理功能,为进一步提高网络文件服务的质量和功能创建了条件。并探讨了主要的技术功能和实现方法。为FTP搜索系统的设计提供了一个新的设计思路。 相似文献
18.
基于Web数据挖掘的数字图书馆个性化信息服务 总被引:2,自引:0,他引:2
白慧 《科技情报开发与经济》2008,18(15):38-39
阐述了Web数据挖掘技术的有关问题,论述了Web数据挖掘在个性化信息服务中的作用.提出了基于一个Web数据挖掘的个性化信息服务体系结构, 相似文献
19.
本文简要介绍了Web搜索引擎的基本原理、核心技术和处理流程,并详细介绍了相关组成技术的概念和系统整体工作流程。并基于c≠≠的全文索引引擎DotLucene软件包入手,简要介绍了Web网站站内信息搜索系统的基本开发过程和方法。 相似文献
20.
Web 3D图像的存储管理及在数字博物馆中的应用 总被引:1,自引:0,他引:1
应用Web 3D技术并使用VRML语言实现对普通图像以及Web三维空间的一般场景描述,提出将互联网三维信息与关系型数据库相结合存储管理数据的方案,结合数字博物馆研究课题展示了Web 3D图像存储在数据库服务器中的方法,论述了不同方案的解决特点和存储文物Web 3D数据信息的应用意义。 相似文献