基于层次聚类的子话题检测算法 |
| |
作者姓名: | 代翔 黄细凤 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 |
| |
作者单位: | 1. 中国电子科技集团公司第十研究所,四川 成都 610036; 2. 四川大学 网络空间安全学院,四川 成都 610065; 3. 四川大学 网络空间安全研究院,四川 成都 610065 |
| |
基金项目: | 国家科技支撑计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;四川省科技厅项目 |
| |
摘 要: | 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上 的分层现象;LDA 建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数 K 的设定通常根据人的经验. 这些将造成建模结果出现包含多个子话题的混合话题情况. 针 对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对 LDA 模型分类结果粒 度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测. 首先 对 LDA 模型建模结果进行优化,对话题 - 单词分布与文档 - 单词分布两个矩阵进行过 滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话 题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题. 实验结 果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控 分析;与 Single-Pass 算法和 K-均值聚类算法相比,该算法获得的结果更具有有效性;K 的 选取策略对基于层次聚类的子话题检测算法具有鲁棒性.
|
关 键 词: | 话题模型 子话题 层次聚类 隐狄利克雷分布 话题检测 |
收稿时间: | 2018-04-27 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《华南理工大学学报(自然科学版)》下载全文 |
|