首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
网络舆情追踪中热点关键词的提取   总被引:1,自引:0,他引:1  
传统的基于文本聚类的网络舆情热点追踪算法,在处理海量网页时,文本聚类速度过低,聚合结果较差.提出了一种基于关键词提取的网络舆情热点追踪方案,并根据新闻、论坛和博客的不同特点分别设计了热点分析模型.通过在笔者开发的啄木鸟网络舆情系统上的实际验证表明,该方案行之有效,热点分析模型识别热点准确率高.  相似文献   

2.
为提高高校网络舆情的可识别性和预警实时性,提高网络舆情热点分析的准确性,论文设计了一个高校网络舆情热点发现模型.包括网络舆情信息采集、预处理、中文分词、特征选择、文本分词和聚类分析.考虑到网络舆情的不确定性和模糊性,提出了一种基于信息熵和密度改进的K-Means聚类算法的网络舆情相似度分析方法,此方法可以对网络热点和危机事件进行聚类和识别.实验结果表明,该方法能够快速获得网络舆情,具有较高的聚类准确率,证明了论文提出的模型的可行性与有效性,可为高校网络舆情监测和识别提供重要的技术支持.  相似文献   

3.
由于网络舆情文本的数据量非常大,用人工方式很难从舆情文本中发现舆情热点。利用LDA(Latent Dirichlet Allocation)主题模型的文本降维及词语聚类功能,能够从海量的舆情文本中自动提取所关注的焦点主题词。但由于缺乏动态的时间分布机制,LDA难以捕捉随时间变化的热点词链。本文提出了加入动态时间层的DTD-LDA(Dynamic Time Distribution LDA)模型,增加了文档-时间和时间-主题的动态分布机制,改善了LDA主题词对时间变化的敏感性,可以有效提取迅速变化的舆情文本热点词链。实验表明,DTD-LDA相比较同类模型,在动态热点词链的提取上具有更好的准确率和召回率。  相似文献   

4.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

5.
对网络舆情的分析已引起人们的高度重视,因为网络舆情热点具有导向性作用,如"某某门"事件,在短短60小时过后就引起监察部门的注意,这只有在日益流行的网络应用的今天才可能做到.分析网络舆情热点的手段多种多样,角度不同,如:可利用文本聚类的方法、动态文摘生成的方法以及意见领袖特征等方法来发现网络舆情中的热点和焦点信息.截止目前,分析网络舆情热点的方法没有固定的模式,值得深入探讨和研究.针对目前网络舆情研究的典型方法及其思想,进行概述性分析,给出网络舆情分析中词频、权重特征词、意见领袖属性矩阵等概念的形式化定义.本文作者通过对比分析,比较研究了网络舆情方法的优缺点;总结了国际上在这一领域的最新研究进展和研究方法,给出下一步的研究工作重点.  相似文献   

6.
随着短视频关注度的不断提高,抖音短视频已经成为当前时代热点。针对于短视频、短文本,向量空间模型(VSM)表示方法存在高维度、同义多义问题,导致难以准确度量文本相似度,该文提出了一种基于隐含语义分析的聚类方法,利用LSA将训练数据聚类成隐含语义主题,通过奇异值分解,将词向量和文档向量投射到一个低维空间,用层次聚类算法确定初始中心,然后聚类得到结果。结论表明,短视频中的核心语义内容被成功保留下来,运用矩阵降维方法降低了计算量,冗余的相关性干扰得以解决,改变了视频语义检测的整体效果。  相似文献   

7.
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

8.
为快速有效地确定聚类中心,提出一种基于距离阈值的自适应K-均值聚类算法.首先确定合理的距离阈值,其次根据距离阈值确定初始聚类中心位置及个数,最后对位置相近的聚类中心簇进行合并,获得新的聚类中心位置及个数.结果表明,该方法可以自动确定k值及中心位置,有效避免将离群点错误聚类,从而改善了聚类效果.  相似文献   

9.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

10.
有效预测舆情事件的热点内容有利于提高对舆论导向的把控能力和对公众诉求的预判能力. 然而,现有的舆情预测工作大多关注事件整体趋势指标或情感极性的演变预测,鲜有针对舆情事件热点内容的预测研究. 为解决以上问题,本文提出一种基于时间演化图卷积网络的舆情热点内容预测方法:以舆情事件的热点词作为预测对象,首先,通过演化图卷积网络学习各时间片词语的空间关联关系;然后,使用门控循环单元捕捉各时间片词语特征的时序变化;最后,通过全连接层进行输出,实现对舆情事件热点词的预测. 以微博上两个不同的舆情突发事件的相关文本作为数据集,与两种现有热点词预测方法开展对比实验. 实验结果表明,该方法在两个数据集上的精确率分别达到51.21%和50.98%,召回率分别达到50.17%和48.15%,F1值分别达到50.68%和49.52%,均高于两种对比方法,能够更好地完成舆情事件中热点词的预测.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号