首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词云和文章主题的校园综合新闻聚类
引用本文:郝秀慧,方贤进,杨高明.基于词云和文章主题的校园综合新闻聚类[J].安徽理工大学学报(自然科学版),2021,41(6):39-44.
作者姓名:郝秀慧  方贤进  杨高明
作者单位:安徽理工大学计算机科学与工程学院,安徽淮南232001
摘    要:面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好.聚类结果能为用户了解或查找想要的类别信息提供一定参考.

关 键 词:词云  文章主题  校园新闻  词频-反文档频率  k-means聚类

Campus Comprehensive News Clustering Based on Word Cloud and Article Theme
HAO Xiuhui,FANG Xianjin,YANG Gaoming.Campus Comprehensive News Clustering Based on Word Cloud and Article Theme[J].Journal of Anhui University of Science and Technology:Natural Science,2021,41(6):39-44.
Authors:HAO Xiuhui  FANG Xianjin  YANG Gaoming
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号