共查询到10条相似文献,搜索用时 15 毫秒
1.
网络舆情监控系统的实现方法 总被引:1,自引:0,他引:1
结合信息通信技术,使用中文信息处理和文本挖掘中的关键技术对舆情监控设计流程进行分析.通过相关功能模块建立网络舆情监控系统,实现网页信息采集和Web挖掘基础上的热点发现与跟踪. 相似文献
2.
《湖北民族学院学报(自然科学版)》2018,(4)
为提高高校网络舆情的可识别性和预警实时性,提高网络舆情热点分析的准确性,论文设计了一个高校网络舆情热点发现模型.包括网络舆情信息采集、预处理、中文分词、特征选择、文本分词和聚类分析.考虑到网络舆情的不确定性和模糊性,提出了一种基于信息熵和密度改进的K-Means聚类算法的网络舆情相似度分析方法,此方法可以对网络热点和危机事件进行聚类和识别.实验结果表明,该方法能够快速获得网络舆情,具有较高的聚类准确率,证明了论文提出的模型的可行性与有效性,可为高校网络舆情监测和识别提供重要的技术支持. 相似文献
3.
立足于对高校网络这一校内主要舆论平台的监控的实际需要,结合中文信息处理领域中网络爬虫、网页除噪、特征提取、文本分类等技术,给出了一种高校网络舆情监控系统的实现方案,并通过实验验证了系统的有效性. 相似文献
4.
黄美璇 《北京联合大学学报(自然科学版)》2012,26(1):33-36
开发了一套由中文分词、向量空间模型建立(VSM)、特征提取、降维处理和文本聚类等模块组成的舆情分析系统,实现互联网舆情信息的主题发现;在舆情分析系统的实现过程中,提出了一种K-means改进算法。实验证明,改进后的算法在查全率和查准率上都有了一定的提高,能够得到较高且稳定的准确率。 相似文献
5.
《山东科技大学学报(自然科学版)》2018,(6)
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。 相似文献
6.
7.
网络舆情追踪中热点关键词的提取 总被引:1,自引:0,他引:1
传统的基于文本聚类的网络舆情热点追踪算法,在处理海量网页时,文本聚类速度过低,聚合结果较差.提出了一种基于关键词提取的网络舆情热点追踪方案,并根据新闻、论坛和博客的不同特点分别设计了热点分析模型.通过在笔者开发的啄木鸟网络舆情系统上的实际验证表明,该方案行之有效,热点分析模型识别热点准确率高. 相似文献
8.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. 相似文献
9.
《太原师范学院学报(自然科学版)》2020,(1)
K-means聚类算法具有实现简单、普及性强的优势,但存在聚类中心选取随意性强的劣势.文章提出增加一个密度变量的方式来选出合理的初始聚类中心,通过对校园网上热点话题聚类分析的实验,检验出改进K-means聚类算法聚类效果好. 相似文献
10.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。 相似文献