首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种改进的Lucene语义相似度检索算法
引用本文:黄承慧,印鉴,陆寄远.一种改进的Lucene语义相似度检索算法[J].中山大学学报(自然科学版),2011,50(2).
作者姓名:黄承慧  印鉴  陆寄远
作者单位:1. 中山大学信息科学与技术学院,广东广州,510275;广东金融学院计算机科学与技术系,广东广州,510520
2. 中山大学信息科学与技术学院,广东广州,510275
3. 广东金融学院计算机科学与技术系,广东广州,510520
基金项目:国家自然科学基金资助项目,广东省自然科学基金资助项目,广州市科技计划资助项目,高等学校博士学科点专项科研基金资助项目,新世纪优秀人才支持计划资助项目
摘    要: Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。

关 键 词:语义  相似度  信息检索  算法
收稿时间:2010-03-31;

An Improved Retrieve Algorithm Incorporated Semantic Similarity for Lucene
HUANG Chenghui,YIN Jian,LU Jiyuan.An Improved Retrieve Algorithm Incorporated Semantic Similarity for Lucene[J].Acta Scientiarum Naturalium Universitatis Sunyatseni,2011,50(2).
Authors:HUANG Chenghui  YIN Jian  LU Jiyuan
Institution:(1. School of Information Science and Technology,Sun Yat sen University,Guangzhou 510275, China;2. Department of Computer Science and Technology, Guangdong University of Finance, Guangzhou 510520, China)
Abstract:A retrieve algorithm that incorporates the semantic information of the words into traditional retrieve function of Lucene is proposed. The proposed method improves the important components of existing retrieve similarity functions with semantic information, and selects the appropriate measure of semantic similarity to compute the semantic similarity between the query words and text corpus by using the external dictionary Wordnet. With the semantic similarity, the algorithm implements semantic information retrieve and can sort the retrieved text documents according to the semantic similarity between query words and text documents. The experimental results show that the proposed method can improve the precision of document retrieval effectively.
Keywords:semantic  similarity  information retrieve  algorithm
本文献已被 万方数据 等数据库收录!
点击此处可从《中山大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《中山大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号