首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王巧玲  彭静  王春红 《科技信息》2011,(19):I0038-I0039
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。  相似文献   

2.
Nutch-0.9中JE中文分词的实现   总被引:1,自引:0,他引:1  
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。  相似文献   

3.
论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结Nutch插件的处理流程和概念与实际文件之间的对应关系。对Nutch插件机制的深入理解,有助于灵活构建基于Nutch的新应用。  相似文献   

4.
刘洋 《科技信息》2009,(36):171-172
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出在中文分词上的改进。  相似文献   

5.
顾珺 《科技资讯》2009,(15):20-20,22
Nutch是一个开放源代码的Web搜索引擎,由于不夫杂商业利益,它对搜索结果的排序算法较为透明公平。未来的搜索引擎的发展趋势之一是个性化和智能化,本文在研究开泺Nutch的基础上设计实现了一个具有关联用户搜索行为的搜索引擎。  相似文献   

6.
基于Nutch的搜索引擎技术   总被引:1,自引:0,他引:1  
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.  相似文献   

7.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。  相似文献   

8.
中文农业主题搜索引擎的设计与实现   总被引:2,自引:1,他引:1  
用户对农业信息的需求越来越多,农业搜索引擎的开发变得十分必要.从农业搜索引擎发展状况出发,在分析研究通用搜索引擎工作原理、系统架构的基础上,设计并实现了中文农业主题搜索引擎,给出了开发过程中采用的关键技术.结果表明,能满足用户实际需求.  相似文献   

9.
面向语义搜索的推荐模型研究   总被引:2,自引:1,他引:1  
随着Web信息量的不断增多,人们不得不花费大量时间去搜索、浏览和选择自己需要的信息,改善和提升搜索引擎信息检索的能力已经越来越迫切.提出基于专家用户搜索历史的信息推荐模型,并重点介绍普通用户和专家用户Profile以及基于此的2个计算模型.在此基础上结合Nutch搜索引擎平台,开发面向语义搜索的推荐系统,实际使用证明推荐效果良好.  相似文献   

10.
个性化搜索引擎研究的目的是使搜索结果尽可能满足不同用户的信息需求,而排序算法在搜索引擎技术中占有着核心的地位.提出了一种基于改进的DBSCAN聚类的个性化排序算法,在全文搜索包Lucene与开源搜索引擎Nutch的基础上,实验证明该方法提高了用户搜索的准确率和召回率.  相似文献   

11.
借助浏览器插件技术可以弥补主流搜索引擎无法有效利用用户搜索经验的不足,可更好地实现个性化Web搜索。为此提出一种新的个性化Web搜索模式,即搜索引擎-浏览器插件-推荐引擎模式,给出一种基于案例推理的个性化Web搜索推荐系统体系结构,探讨了搜索经验的获取、表示与组织等,介绍了案例模型的基本结构。此外,介绍了基于上述模式开发的ExpertRec原型系统。  相似文献   

12.
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑.  相似文献   

13.
该文针对企业信息服务平台数据特点,分析建设多源异构地理信息检索的应用需求,设计开发一种通用的多源异构多维地理空间搜索引擎,研究了存储结构与存储方式,开发插件式的索引引擎,实现可扩展、可定制的多应用查询引擎。研究成果已应用于天津市勘察院数据资源平台,满足企业的数据资源检索应用。  相似文献   

14.
黄翼彪 《科技信息》2012,(12):246-247
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。  相似文献   

15.
梁晟  熊莎 《科技信息》2011,(32):I0122-I0122
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。  相似文献   

16.
提出了一种用于Office二次开发的Java插件技术,并在永中Office中实现。Office作为插件平台,定义插件规范,并由Office模块提供功能扩展点;使用XML文件格式,定义插件配置文件;插件根据实际需要,在配置文件中配置功能扩展信息;通过二次开发接口,操作Office的数据和功能。通过解析配置文件的相关信息,可以在不影响原有功能的情况下将定制功能整合到Office中,满足了一些用户对Office的定制化需求。  相似文献   

17.
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹.  相似文献   

18.
用户行为分析是改进搜索引擎的重要依据,为了更好地理解中文搜索用户的检索行为,在引入分词的基础上对搜狗搜索引擎在一个月内的真实查询日志进行了分析,对查询语言、查询长度、rank和网页深度与点击次数四个方面的用户行为进行分析。所得结论对改进中文搜索引擎的设计和更准确地评测检索效果都有较好的指导意义。  相似文献   

19.
摘 要 Nutch的排序机制使得一些传统的高质量的页面经常出现Web检索结果的前面,而新加入的高质量的Web页面很难被用户找到。针对传统基于链接算法中对新内容的迟钝性,本文提出了对网页的补偿算法,对Web上在一段时间内好的资源信息使其排名结果上升,而对于不好的资源使其下降,以此来加速优质内容的传播和网络内容的合理化。并最终把改进后的算法应用在基于Nutch的搜索引擎中,通过实验来验证和测试。  相似文献   

20.
介绍如何使用REI(Rose扩展接口)定制Rose插件。本文通过使用VisualBasic开发工具开发一个简单的带有对话框,菜单文件以及注册表表文件的Rose插件,对两种Rose扩展接口OLE automation server和Rose Script的使用做了简单介绍。开发Rose插件可以使你更熟悉Rose扩展接口的使用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号