首页 | 本学科首页   官方微博 | 高级检索  
     

基于Lucene的中文分词方法设计与实现
引用本文:李颖,李志蜀,邓欢. 基于Lucene的中文分词方法设计与实现[J]. 四川大学学报(自然科学版), 2008, 45(5): 1095-1099
作者姓名:李颖  李志蜀  邓欢
作者单位:四川大学计算机学院,成都,610064;泸州医学院生物工程系,泸州,646000
摘    要:本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.

关 键 词:中文分词  搜索引擎  Lucene  正向最大匹配算法
收稿时间:2007-07-04

Design and implementation of Chinese words segementation based on Lucene
LI Ying,LI Zhi-Shu,DENG Huan. Design and implementation of Chinese words segementation based on Lucene[J]. Journal of Sichuan University (Natural Science Edition), 2008, 45(5): 1095-1099
Authors:LI Ying  LI Zhi-Shu  DENG Huan
Affiliation:Department of Computer Science and Technology, Sichuan University;Department of Computer Science and Technology, Sichuan University;Department of Biomedical Engineering, Luzhou Medical College
Abstract:This paper design and implement a Chinese words segmentation module, which mainly for dealing with Chinese words to improve the ability of full text search system. The whole module based on the most popular architecture Lucene,and implement the Maximum Matching Algorithm with the ability of eliminate different meanings. The authors also compare our method with methods in existence, and bring forward a implementation about how to construct a high efficiency Chinese searching system.
Keywords:Lucene
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《四川大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《四川大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号