首页 | 本学科首页   官方微博 | 高级检索  
     

基于词对向量的中文新闻话题检测方法
作者姓名:张文博  米成刚  杨雅婷
作者单位:中国科学院新疆理化技术研究所;中国科学院大学计算机科学与技术学院;新疆民族语音语言信息处理实验室
摘    要:针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号