Lucene索引段合并优化策略 |
| |
引用本文: | 熊安萍,李传根,曹春江.Lucene索引段合并优化策略[J].重庆邮电大学学报(自然科学版),2020,32(1):105-112. |
| |
作者姓名: | 熊安萍 李传根 曹春江 |
| |
作者单位: | 重庆邮电大学 计算机科学与技术学院 重庆 400065,重庆邮电大学 计算机科学与技术学院 重庆 400065,中国电信股份有限公司 云南分公司,昆明 650000 |
| |
基金项目: | 重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX);重庆市教委科学技术研究项目(KJ1704085);重庆邮电大学博士启动基金(A2015-17) |
| |
摘 要: | 随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lucene索引段合并优化策略,该策略通过负载系数来选择不同的索引段合并操作。为提高数据的检索速度,进一步建立索引段相似度评价模型来选择出最优合并索引段集合进行合并。通过与现有Tiere,LogByte,LogDoc等合并策略进行实验对比,提出的优化策略能有效减少索引段合并次数,提升系统吞吐量及索引效率。
|
关 键 词: | Lucene 索引段合并 负载系数 索引段相似度 最优合并索引段 |
收稿时间: | 2018/8/7 0:00:00 |
修稿时间: | 2019/12/7 0:00:00 |
|
| 点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息 |
| 点击此处可从《重庆邮电大学学报(自然科学版)》下载免费的PDF全文 |