抑制背景噪声的LDA 子话题挖掘算法 |
| |
作者姓名: | 李静远 丘志杰刘悦 程学旗任彦 |
| |
作者单位: | 1. 中国科学院 计算技术研究所//中国科学院 网络数据科学与技术重点实验室,北京 100190;2. 国家计算机网络应急技术处理协调中心,北京 100029 |
| |
基金项目: | 国家自然科学基金资助项目( 61303244, 61572473, 61572469, 61402442, 61402022, 61370132) ; 国家242 信息安全计划项目( 2015F114) |
| |
摘 要: | 专题文章集合是一些拥有相似背景知识的文章集合. 为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析( LDA) 子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度. 在微信公众账号文章上的系列实验证明,BLDA 算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA 算法,其中主题召回率提高了170%,Purity 聚类指标提高了143%,NMI 聚类指标提高了160%.
|
关 键 词: | 子话题挖掘 线性判别分析 背景噪声抑制 |
收稿时间: | 2016-12-07 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《华南理工大学学报(自然科学版)》下载全文 |
|