首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
刘洋 《科技信息》2009,(36):171-172
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出在中文分词上的改进。  相似文献   

2.
Nutch-0.9中JE中文分词的实现   总被引:1,自引:0,他引:1  
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。  相似文献   

3.
王巧玲  彭静  王春红 《科技信息》2011,(19):I0038-I0039
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。  相似文献   

4.
由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展,用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。  相似文献   

5.
用户行为分析是改进搜索引擎的重要依据,为了更好地理解中文搜索用户的检索行为,在引入分词的基础上对搜狗搜索引擎在一个月内的真实查询日志进行了分析,对查询语言、查询长度、rank和网页深度与点击次数四个方面的用户行为进行分析。所得结论对改进中文搜索引擎的设计和更准确地评测检索效果都有较好的指导意义。  相似文献   

6.
顾珺 《科技资讯》2009,(15):20-20,22
Nutch是一个开放源代码的Web搜索引擎,由于不夫杂商业利益,它对搜索结果的排序算法较为透明公平。未来的搜索引擎的发展趋势之一是个性化和智能化,本文在研究开泺Nutch的基础上设计实现了一个具有关联用户搜索行为的搜索引擎。  相似文献   

7.
FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术.使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统.压力测试结果表明此FTP搜索引擎具有很高的性能.  相似文献   

8.
随着Internet用户对Web信息资源需求的增加,搜索引擎技术得到迅猛的发展.针对目前中文搜索引擎大多采用基于关键词精确匹配(Accurately matched)的低智能性问题,提出一种基于非确定图灵机NTM(Nondeterministic Turing Machine)智能中文搜索引擎系统,简要介绍了非确定图灵机的基本知识,详细叙述了该搜索引擎的系统架构,系统实现的基本原理和算法.实验数据结果表明,基于非确定图灵机智能中文搜索系统在查询结果的准确性和智能性明显高于现有的搜索系统.  相似文献   

9.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法.  相似文献   

10.
对中文搜索引擎技术进行研究,并对当前搜索引擎存在的一些问题进行了归纳描述,分析了中文搜索引擎的未来研究趋势.  相似文献   

11.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

12.
介绍面向侨务信息主题搜索引擎的工作原理和体系结构,根据侨务信息的特征对网页进行侨务信息的识别.针对主题式搜索,提出一种优化的,基于历史反馈(BHF)的搜索策略,并对该搜索策略进行实验测试.结果表明,以该方法设计的面向侨务信息主题的搜索引擎系统,具有较高的搜索速度与识别精度.  相似文献   

13.
基于概念检索的中文搜索引擎   总被引:7,自引:0,他引:7  
随着Internet中文信息的增加,智能化引擎已成为中文检索技术未来的发展目标与趋势,概念检索作为一种实现技术有着广泛的应用前景,文中阐述了概念检索的意义,介绍了一种基于概念语义网络且针对特定领域的中文搜索引擎模型与实现。  相似文献   

14.
中文农业主题搜索引擎的设计与实现   总被引:2,自引:1,他引:1  
用户对农业信息的需求越来越多,农业搜索引擎的开发变得十分必要.从农业搜索引擎发展状况出发,在分析研究通用搜索引擎工作原理、系统架构的基础上,设计并实现了中文农业主题搜索引擎,给出了开发过程中采用的关键技术.结果表明,能满足用户实际需求.  相似文献   

15.
中文搜索引擎的缺陷与改进   总被引:4,自引:0,他引:4  
简要介绍了现有中文搜索引擎的工作原理,分析了其存在的缺陷,然后针对这些缺陷提出了一种经过改进的中文搜索引擎结构体系,并对其中用到的改进策略进行了剖析.  相似文献   

16.
介绍了中文搜索引擎的概念和工作原理,针对目前中文搜索引擎存在的问题,提出了应采取增加检索途径。加强网络信息资源的标引和组织以及充分利用中文信息处理技术成果等措施来推进中文搜索引擎的发展。  相似文献   

17.
中文搜索引擎发展现状和使用技巧   总被引:1,自引:0,他引:1  
随着网络技术的发展,网上信息量急剧增长,中文搜索引擎为人们在网络信息中实现个性化查询提供了方便。简述了中文搜索引擎的发展现状和工作流程,介绍了常用的网络中文搜索引擎及其使用技巧,指出有针对性地选择合适的搜索引擎,并利用检索中的一些经验技巧,可以达到事半功倍的效果。  相似文献   

18.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

19.
随着互联网上信息数量的激增,信息搜索技术面临着越来越大的挑战.传统的搜索引擎很难满足用户个性化的需求,因此将人工智能技术的研究成果引入到搜索引擎之中便成了不可避免的一种趋势.在传统搜索引擎的基础上,笔者提出了一种基于多Agent协作的智能搜索引擎模型,并将多种智能技术或算法引入到该引擎的研究之中,从而得到一个符合个性要求的高效的证券专业领域搜索引擎系统.将该系统运用到其他专业领域,同样可以取得很好的查询效果.  相似文献   

20.
主要分布式搜索引擎技术的研究   总被引:2,自引:0,他引:2  
讨论了当前搜索引擎的主要技术以及这些技术的原理。介绍了基于P2P的搜索技术,以及JAXT搜索框架的基本原理,重点给出了基于Map/Reduce技术分布式搜索引擎的实现。对今后搜索引擎的发展也作出了相应的探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号