共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。 相似文献
3.
4.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。 相似文献
5.
基于Lucene的中文分词方法设计与实现 总被引:1,自引:2,他引:1
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 相似文献
6.
中文检索是信息产业中发展较快且很重要的领域,在对全文索引进行深入的理论分析基础上,设计实现了基于倒排索引结构的中文文本检索系统.该系统采用词库匹配法对文本文档进行关键词的切分,并对关键词建立索引,最后通过索引实现对关键词的检索. 相似文献
7.
目前站内搜索引擎已经逐渐成为web应用领域的热点.本文根据Sphinx、Mysql系统结构和运行特点,以Python语言为例,提出一种通用的web站内搜索引擎的构建方法.对于基于Linux+Apache+Mysql(或PostgreSQL)构架、Django等开源技术构架的web网站,该方法在不改变现有网站构架的基础上可以很便捷的构建一种性能优越的站内搜索引擎. 相似文献
8.
《西北大学学报(自然科学版)》2015,(4):568-572
针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。 相似文献
9.
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档. 相似文献
10.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。 相似文献
11.
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑. 相似文献
12.
一、引言搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎可分为全文索引、目录索引、元搜索引擎、垂直搜索引擎等。全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有百度。 相似文献
13.
14.
15.
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。 相似文献
16.
考试系统基于中文分词技术的主观题评分尝试 总被引:2,自引:0,他引:2
为了保证考试系统评分的公正性与准确性,在系统中采用了手工评定简答题的方式,但是为了在将来能够真正的实现全自动的评分,本文尝试使用了最大正向匹配法(MM法)进行分词,在识别出主观题型关键词的基础上,进行主观题批阅。 相似文献
17.
智能化搜索引擎分析与探讨 总被引:5,自引:0,他引:5
随着网络技术的发展,搜索引擎技术越来越引起人们的关注,在介绍搜索引擎的分类及其发展的基础上,分析了智能化搜索引擎的特征及其关键技术,给出了智能搜索引擎技术的实现方法。 相似文献
18.
基于Nutch的搜索引擎技术 总被引:1,自引:0,他引:1
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能. 相似文献
19.
不论是分类目录式搜索引擎还是全文搜索引擎 ,大都具备检索手段完善、资源搜集全面、简便易用和输出形式多样等特点。面对众多的中文搜索引擎 ,我们只有熟悉它们各自的特征 ,掌握其使用方法和技巧 ,才能在浩瀚无序的资源海洋中准确、迅速而又比较全面地获取到所需要的信息资料。 相似文献
20.
中文分词技术是一项在搜索引擎中广泛应用的关键技术,也是中文信息处理中的一项关键技术。文章通过对中文分词系统中预处理模块的改进提高了分词的速度,改进了分词系统。 相似文献