首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 57 毫秒
1.
秦杰 《科学技术与工程》2013,13(8):2250-2253
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。  相似文献   

2.
介绍了在互联网信息检索领域中搜索引擎的产生及发展状况,以及元搜索引擎的基本工作原理.元搜索是建立在搜索引擎之上的,提供统一的用户查询界面与信息反馈形式,应用不同的结果选择策略满足用户不同的需求.  相似文献   

3.
中文搜索引擎开发利用策略研究   总被引:2,自引:0,他引:2  
在总结分析国内外搜索引擎存在问题的基础上,提出了开发利用中文搜索引擎的一些策略,包括提升搜索引擎的智能搜索和人性化服务质量、开发基于内容的搜索引擎服务、加强专业搜索引擎和专业元搜索引擎的研究以及重视学术资源搜索引擎的开发。  相似文献   

4.
基于概念的信息检索模型研究   总被引:24,自引:2,他引:24  
随着Internet的迅速发展,WWW已经成为世界上最大的信息库,它正日益改变着人类的生活方式。然而,由于WWW信息资源庞大,结构复杂,如何高效地从中找到需要的信息,已经成为困扰网络用户的一大难题。许多著名的站点,如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎,存在明显的缺陷,当查询用的关键字与目标文档尽管语义相同,但用词不一致时,将检索失败,导致召回率很低。提出一个基于概念的信息检索模型,它不是以关键字为核心,而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。  相似文献   

5.
王慧慧 《科技资讯》2009,(30):201-201
随着信息的网络化,互联网中的信息量与日俱增,人们普遍采用搜索引擎进行各种信息的检索,但效率及精度不是很理想。本文概括了几种常见的检索方式,同时从多个不同的角度给出了改善信息检索性能的几种方法。  相似文献   

6.
论搜索引擎的技术策略及发展趋势   总被引:2,自引:0,他引:2  
分析了搜索引擎的种类及其特点,肯定了搜索引擎在网络检索中的作用,同时指出了它在检索中存在的困难,阐明了其今后的技术策略及发展方向。  相似文献   

7.
Internet中文信息检索技术   总被引:1,自引:0,他引:1  
本文主要介绍了INTERNET中文搜索引擎索引数据库建设中的分词技术、文档的相关性等技术特点;中文搜索引擎的系统结构;网上中文信息检索方法。并提出了中文搜索引擎存在的检索方式单一、缺少全文引擎等问题。  相似文献   

8.
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率.  相似文献   

9.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

10.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

11.
本概述了上网所需软件的总必要配置,网上信息查询途径的选择以及如何利用搜索软件更加有效地在网上完成信息检索的方法。  相似文献   

12.
基于概念检索的中文搜索引擎   总被引:7,自引:0,他引:7  
随着Internet中文信息的增加,智能化引擎已成为中文检索技术未来的发展目标与趋势,概念检索作为一种实现技术有着广泛的应用前景,文中阐述了概念检索的意义,介绍了一种基于概念语义网络且针对特定领域的中文搜索引擎模型与实现。  相似文献   

13.
搜索引擎技术综述   总被引:3,自引:0,他引:3  
介绍了搜索引擎技术的定义及组成要素,探讨了搜索引擎技术研究的现状、存在的问题和今后研究发展的方向。  相似文献   

14.
介绍了看不见的网站的概念和特点,对如何利用看不见的网站资源进行了探讨。  相似文献   

15.
基于个性化服务的元搜索引擎模型   总被引:3,自引:0,他引:3  
概述了元搜索引擎的现状与基本结构原理,提出了一种新的智能化提供个性化服务的元搜索引擎设计方案。  相似文献   

16.
根据全信息理论,认识论信息是语法信息、语义信息和语用信息的三位一体.在信息检索的过程中加入语用信息能有效的提高信息检索的质量.基于查询与内容的文档表示模型较好的利用了语用信息,对站内搜索引擎的查准率的提高有着很好作用;Lucene是一个用java语言开发的开源的全文搜索引擎架构.本文利用Lucene设计和实现一个基于查询与内容的文档表示模型的站内搜索引擎,实验结果表明该模型能有效的提高信息检索的查准率.  相似文献   

17.
通过对农业信息资源搜索引擎检索的研究,介绍了国外常用数据库检索和国内数据库,并就如何从互联网上快速获取农业信息资源的方法进行了阐述。  相似文献   

18.
网络信息检索工具的现状与发展趋势   总被引:2,自引:0,他引:2  
分别对基于网页的网络信息检索工具、基于FTP文件的检索工具、基于网络检索工具的检索技术的现状和发展趋势进行了比较深入的分析与探讨。  相似文献   

19.
介绍了搜索引擎的定义和主要任务以及生物医学专业的主要搜索引擎,阐述了从互联网上快速获取生物医学信息资源的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号