首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于层次聚类的子话题检测算法
引用本文:代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀,王海舟,罗梁.基于层次聚类的子话题检测算法[J].华南理工大学学报(自然科学版),2019,47(8).
作者姓名:代翔  黄细凤  唐瑞  蒋梦婷  陈兴蜀  王海舟  罗梁
作者单位:中国电子科技集团公司第十研究所,四川成都,610036;四川大学网络空间安全学院,四川成都,610065;四川大学网络空间安全学院,四川成都610065;四川大学网络空间安全研究院,四川成都610065
基金项目:国家科技支撑计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;四川省科技厅项目
摘    要:使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.

关 键 词:话题模型  子话题  层次聚类  隐狄利克雷分布  话题检测
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号