首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于LDA的文本聚类在网络舆情分析中的应用研究
引用本文:王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报(理学版),2014(9).
作者姓名:王少鹏  彭岩  王洁
作者单位:1. 首都师范大学信息工程学院,北京,100048
2. 首都师范大学管理学院,北京,100089
基金项目:北京市自然科学基金资助项目(9142002);北京市教育委员会科技计划面上项目
摘    要:针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。

关 键 词:网络舆情  主题模型  LDA  TF-IDF  文本相似度

Research of the text clustering based on LDA using in network public opinion analysis
WANG Shao-peng,PENG Yan,WANG Jie.Research of the text clustering based on LDA using in network public opinion analysis[J].Journal of Shandong University,2014(9).
Authors:WANG Shao-peng  PENG Yan  WANG Jie
Abstract:
Keywords:network public opinion  topic model  LDA  TF-IDF  text similarity
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号