共查询到19条相似文献,搜索用时 57 毫秒
1.
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。 相似文献
2.
介绍了在互联网信息检索领域中搜索引擎的产生及发展状况,以及元搜索引擎的基本工作原理.元搜索是建立在搜索引擎之上的,提供统一的用户查询界面与信息反馈形式,应用不同的结果选择策略满足用户不同的需求. 相似文献
3.
中文搜索引擎开发利用策略研究 总被引:2,自引:0,他引:2
孙玮 《科技情报开发与经济》2005,15(1):230-231
在总结分析国内外搜索引擎存在问题的基础上,提出了开发利用中文搜索引擎的一些策略,包括提升搜索引擎的智能搜索和人性化服务质量、开发基于内容的搜索引擎服务、加强专业搜索引擎和专业元搜索引擎的研究以及重视学术资源搜索引擎的开发。 相似文献
4.
基于概念的信息检索模型研究 总被引:24,自引:2,他引:24
随着Internet的迅速发展,WWW已经成为世界上最大的信息库,它正日益改变着人类的生活方式。然而,由于WWW信息资源庞大,结构复杂,如何高效地从中找到需要的信息,已经成为困扰网络用户的一大难题。许多著名的站点,如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎,存在明显的缺陷,当查询用的关键字与目标文档尽管语义相同,但用词不一致时,将检索失败,导致召回率很低。提出一个基于概念的信息检索模型,它不是以关键字为核心,而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。 相似文献
5.
随着信息的网络化,互联网中的信息量与日俱增,人们普遍采用搜索引擎进行各种信息的检索,但效率及精度不是很理想。本文概括了几种常见的检索方式,同时从多个不同的角度给出了改善信息检索性能的几种方法。 相似文献
6.
论搜索引擎的技术策略及发展趋势 总被引:2,自引:0,他引:2
马宏伟 《科技情报开发与经济》2004,14(3):137-139
分析了搜索引擎的种类及其特点,肯定了搜索引擎在网络检索中的作用,同时指出了它在检索中存在的困难,阐明了其今后的技术策略及发展方向。 相似文献
7.
Internet中文信息检索技术 总被引:1,自引:0,他引:1
秦洪晶 《青岛大学学报(自然科学版)》2000,13(4):86-89
本文主要介绍了INTERNET中文搜索引擎索引数据库建设中的分词技术、文档的相关性等技术特点;中文搜索引擎的系统结构;网上中文信息检索方法。并提出了中文搜索引擎存在的检索方式单一、缺少全文引擎等问题。 相似文献
8.
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率. 相似文献
9.
基于Map/Reduce的网页消重并行算法 总被引:1,自引:0,他引:1
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。 相似文献
10.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰. 相似文献
11.
本概述了上网所需软件的总必要配置,网上信息查询途径的选择以及如何利用搜索软件更加有效地在网上完成信息检索的方法。 相似文献
12.
13.
搜索引擎技术综述 总被引:3,自引:0,他引:3
曾宜礼 《科技情报开发与经济》2007,17(6):198-200
介绍了搜索引擎技术的定义及组成要素,探讨了搜索引擎技术研究的现状、存在的问题和今后研究发展的方向。 相似文献
14.
15.
16.
17.
李莉 《科技情报开发与经济》2010,20(10):92-94
通过对农业信息资源搜索引擎检索的研究,介绍了国外常用数据库检索和国内数据库,并就如何从互联网上快速获取农业信息资源的方法进行了阐述。 相似文献
18.
网络信息检索工具的现状与发展趋势 总被引:2,自引:0,他引:2
李书宁 《科技情报开发与经济》2004,14(5):1-2
分别对基于网页的网络信息检索工具、基于FTP文件的检索工具、基于网络检索工具的检索技术的现状和发展趋势进行了比较深入的分析与探讨。 相似文献
19.
介绍了搜索引擎的定义和主要任务以及生物医学专业的主要搜索引擎,阐述了从互联网上快速获取生物医学信息资源的方法。 相似文献