基于关键句的K-means算法在热点发现领域的研究与应用 |
| |
引用本文: | 顾俊. 基于关键句的K-means算法在热点发现领域的研究与应用[J]. 贵州科学, 2016, 0(3): 93-96. DOI: 10.3969/j.issn.1003-6563.2016.03.019 |
| |
作者姓名: | 顾俊 |
| |
作者单位: | 贵州师范大学数学与计算机科学学院,贵州 贵阳,550001 |
| |
摘 要: | 由于互联网+提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。
|
关 键 词: | 文本挖掘 TF-IDF 聚类 K-means |
The research and application of K-Means algorithm based on key sentence in the field of hot spots |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 万方数据 等数据库收录! |
|