首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于MapReduce的并行LAD模型评论主题提取算法研究
引用本文:薛行贵,高见文,张伯虎,黄立勤.基于MapReduce的并行LAD模型评论主题提取算法研究[J].福州大学学报(自然科学版),2016,44(5):644-648.
作者姓名:薛行贵  高见文  张伯虎  黄立勤
作者单位:武警工程大学研究生管理大队,武警工程大学研究生管理大队,武警工程大学研究生管理大队,福州大学物信学院
基金项目:国家自然科学基金项目(面上项目,重点项目,重大项目)
摘    要:针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.

关 键 词:LAD模型  MapReduce  评论主题  

Research on topic extraction algorithm based on MapReduce parallel LAD model
XUE Xinggui,GAO Jianwen,ZHANG Bohu and HUANG Liqin.Research on topic extraction algorithm based on MapReduce parallel LAD model[J].Journal of Fuzhou University(Natural Science Edition),2016,44(5):644-648.
Authors:XUE Xinggui  GAO Jianwen  ZHANG Bohu and HUANG Liqin
Abstract:In the face of non structured massive comment text, Latent Dirichlet Allocation (LDA) model in extracting thematic reviews exist long computing time and computing the problem of low efficiency. To solve this problem, a method for establishing the parallel LDA model based on MapReduce framework has been putforwardand the parallelization of the extraction of topic comment has been realized. The experimental results show that the method can achieve near linear speedup in processing large scale text, and the effect of the model is improved by Hadoop parallel computing platform.
Keywords:LDA model  MapReduce  review topic  
本文献已被 CNKI 等数据库收录!
点击此处可从《福州大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《福州大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号