首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 670 毫秒
1.
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档.  相似文献   

2.
Nutch-0.9中JE中文分词的实现   总被引:1,自引:0,他引:1  
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。  相似文献   

3.
基于Lucene的中文分词方法设计与实现   总被引:3,自引:2,他引:1  
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.  相似文献   

4.
张香梅  徐立 《科技信息》2009,(28):95-96
本文对Lucene中文切词算法进行改进,提出将基于网络有向图的双向匹配分词算法应用于Lucene的中文切词器,提高了检索的准确性和检索性能。  相似文献   

5.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

6.
梁晟  熊莎 《科技信息》2011,(32):I0122-I0122
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。  相似文献   

7.
本文提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果。结合本人主持开发的《长春市市长干公开电话之中文分词系统》的项目实践,对系统海量信息的处理起到了关键作用,  相似文献   

8.
本文深入研究了Lucene的分词机制,提出了中文同义词索引原理,实现了一种基于词典的正向最大匹配分词算法,并在此基础上,实现了能够同时处理中英文的同义词分词器。  相似文献   

9.
介绍开放源代码的全文检索引擎工具包Lucene的系统结构和实现机制,分析Lucene的组织结构及全文检索的分词的相关方法后,给出Lunene在全文检索领域中的应用方式。  相似文献   

10.
针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。  相似文献   

11.
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹.  相似文献   

12.
基于Nutch的搜索引擎技术   总被引:1,自引:0,他引:1  
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.  相似文献   

13.
本文以开源的Lucene全文检索工具为基础,设计了一个考试信息类的垂直搜索引擎.并对Lucene工具包中的检索模块做了改进,增加了网页重要性因素,主题相关度因素和用户兴趣因素.实验结果表明改进的检索算法能较大的提高系统的搜索效率,提高了用户体验.  相似文献   

14.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了搜索的准确性.  相似文献   

15.
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。  相似文献   

16.
张佩叶 《科技信息》2008,(34):128-128
文中所提及的射频矢量网络分析仪有窄带测量和宽带测量两种测量方式。本文简单介绍几种常用的提高射频矢网测量动态范围的方法外,从硬件改进的角度提出一种有效提高射频矢量网络分析仪宽带测量动态范围的方案,并用图例方式给出了这种方案的有效性。  相似文献   

17.
Lucene是一个优秀的全文检索框架,布尔查询是其实现精准数据检索的重要功能.对于布尔查询执行计划的深入研究,有利于灵活应用布尔查询,优化查询表达式,提高执行效率.本文从Lucene架构下布尔查询的执行计划入手,研究了布尔查询的表示方式、执行时序、逻辑运算规则和子查询归并算法.根据布尔查询的执行计划,提出了深度为2的复杂布尔查询的化简规律和布尔逻辑运算满足交换律的特性,并从理论上证明它们的正确性.最后通过实验模拟仿真,验证这些规律的有效性.  相似文献   

18.
基于DSP技术的虚拟式FFT频谱分析仪   总被引:3,自引:0,他引:3  
虚拟仪器已经成为仪器发展的一个重要方向,目前已在众多领域获得了广泛应用.FFT频谱分析是机械工程、故障诊断等诸多领域所广泛采用的分析方法.但传统FFT频谱分析仪存在着不易更新、价格昂贵等缺点,虚拟式FFT频谱分析仪的产生摆脱了传统FFT分析仪的多种限制,为FFT分析仪的广泛应用铺平了道路.DSP技术在虚拟仪器中的应用更为虚拟仪器发展提供了广阔前景.作者在深入研究DSP处理系统的基础上,开发了基于DSP技术以及PCI总线的虚拟式FFT频谱分析仪,设计新颖,实用性强,进一步展示了虚拟仪器在仪器发展中的重要地位.  相似文献   

19.
设计的垂直搜索主要为考试信息服务,在Lucene的基础上对爬虫模块、信息提取模块、中文分词模块、索引模块都选择了贴合考试信息的开源模块,并在检索模块上做了改进,在查准率和查全率上比传统搜索有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号