首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进的TF-IDF算法的微博话题检测
作者姓名:陈朔鹰  金镇晟
作者单位:1. 北京理工大学网络信息中心, 北京 100081;
2. 北京理工大学计算机学院, 北京 100081
摘    要: 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。

关 键 词:微博  TF-IDF  话题检测  TDT  文本聚类  
收稿时间:2015-04-23
本文献已被 CNKI 等数据库收录!
点击此处可从《科技导报(北京)》浏览原始摘要信息
点击此处可从《科技导报(北京)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号