首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于LUCENE的中文分词算法研究
引用本文:戴洪,蒋静,樊程,于雪丽.一种基于LUCENE的中文分词算法研究[J].青岛大学学报(自然科学版),2011(3):53-58.
作者姓名:戴洪  蒋静  樊程  于雪丽
作者单位:青岛大学信息工程学院;
基金项目:国家支撑计划项目(2006BA111B07)
摘    要:由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。

关 键 词:全文检索  Lucene  中文分词

Algorithm Research of Chinese Word Based on LUCENE
DAI Hong,JIANG Jing,FAN Cheng,YU Xue-li.Algorithm Research of Chinese Word Based on LUCENE[J].Journal of Qingdao University(Natural Science Edition),2011(3):53-58.
Authors:DAI Hong  JIANG Jing  FAN Cheng  YU Xue-li
Institution:DAI Hong,JIANG Jing,FAN Cheng,YU Xue-li(College of Information Engineering,Qingdao University,Qingdao 266071,China)
Abstract:A new Chinese algorithm to improve Lucene Chinese analyzer is proposed,since Chinese Analyzer and CJK Analyzer cannot meet the requirement of full-text searching application.This algorithm is based on the character string rule and combines the forward and reverse to achieve the largest adding word matching algorithm.The difference between improved analyzer and the two Lucene analyzers is compared through experiment simulation.It can be concluded that the improved analyzer is more effective than the other tw...
Keywords:Full-text Retrieval  Lucene  Chinese Parting-words  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号