基于关键词共现网络的主题词提取算法 |
| |
作者姓名: | 张书谙 王曦 代继鹏 隋毅 孙仁诚 |
| |
作者单位: | 1. 青岛大学计算机科学技术学院;2. 青岛市急救中心通讯调度科 |
| |
基金项目: | 国家自然科学基金青年科学基金(41706198); |
| |
摘 要: | 针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并建立关键词共现网络,在网络的基础上得到最优连通子图,同时以节点度中心性为权重衡量关键词重要性并从中映射出主题词。最后,使用微博话题数据集进行实例验证,证明该算法是有效的,并优于传统的词共现算法,并在青岛社区话题数据集中进行应用。
|
关 键 词: | 关键词 共现度 共现网络 主题词 微博话题 |
|
|