首页 | 本学科首页   官方微博 | 高级检索  
     

基于关键句的K-means算法在热点发现领域的研究与应用
引用本文:顾俊. 基于关键句的K-means算法在热点发现领域的研究与应用[J]. 贵州科学, 2016, 0(3): 93-96. DOI: 10.3969/j.issn.1003-6563.2016.03.019
作者姓名:顾俊
作者单位:贵州师范大学数学与计算机科学学院,贵州 贵阳,550001
摘    要:由于互联网+提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。

关 键 词:文本挖掘  TF-IDF  聚类  K-means

The research and application of K-Means algorithm based on key sentence in the field of hot spots
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号