基于词对向量的中文新闻话题检测方法 |
| |
作者姓名: | 张文博 米成刚 杨雅婷 |
| |
作者单位: | 中国科学院新疆理化技术研究所;中国科学院大学计算机科学与技术学院;新疆民族语音语言信息处理实验室 |
| |
摘 要: | 针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近.
|
本文献已被 CNKI 等数据库收录! |
|