首页 | 本学科首页   官方微博 | 高级检索  
     检索      

AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
引用本文:王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报,2021,28(5):59-65.
作者姓名:王贤明  潘佳玲  胡智文
作者单位:温州理工学院数据科学与人工智能学院,温州325035;浙江工商大学计算机与信息工程学院,杭州310018
摘    要:网络舆情热点发现是一种常用且处理速度要求较高的应用.针对网络舆情热点发现这一特殊应用场合,本文提出了一种基于随机N-Gram的文本聚类方法AR-Grams.该方法通过随机N-Gram的文本相似度计算方法,确立待聚类文档集中各个初始聚类的标志文档并完成初步的聚类操作,继而通过聚类元素数阈值来确定初始聚类,并可根据实际情况确定是否执行聚类合并.该方法生成的聚类内聚性好,准确率高.另外,为了便于评估整体的聚类效果,提出了聚类的整体覆盖率和正确覆盖率.实验结果表明:与对比方法DR-Grams相比,在低阈值时,AR-Grams的准确率、召回率、F-score、正确覆盖率分别提高了11.9%、9.1%、10.2%和9.2%,提升效果尤为明显;在高阈值时,效果基本相当;在整体上,前述4项指标则分别提高了4.5%、2.9%、3.5%和3.0%,优于对比方法DR-Grams.

关 键 词:文本聚类  N-Gram  网络舆情

AR-Grams:a novel text clustering approach to determining on-line public opinion of hot events
WANG Xianming,PAN Jialing,HU Zhiwen.AR-Grams:a novel text clustering approach to determining on-line public opinion of hot events[J].Journal of Communication University of China Science and TEchnology,2021,28(5):59-65.
Authors:WANG Xianming  PAN Jialing  HU Zhiwen
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号