首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
基于改进Single-Pass算法的BBS热点话题发现   总被引:1,自引:0,他引:1  
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

2.
基于多中心模型的网络热点话题发现算法   总被引:1,自引:0,他引:1  
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型.将报道内容之间的关联关系层次化,提高了对网络话题的描述能力.提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销.实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现.  相似文献   

3.
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案.该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本.实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高.  相似文献   

4.
K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受孤立点影响的问题,能产生高质量的聚类结果。  相似文献   

5.
顾俊 《贵州科学》2016,(3):93-96
由于互联网+提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。  相似文献   

6.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

7.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

8.
【目的】研究评价问题中评价对象因个体差异性的聚类问题。【方法】首先引入夹角余弦刻画评价对象个体间倾向性上的差异大小,其次利用余弦相似度与欧式距离刻画评价对象的总体相似度,对Tzortzis和Likas提出的min-max K-means聚类算法进行改进。【结果】利用某高校参与评价教师的指标数据集进行初步的数值实验,证明了改进K-means算法的有效性。【结论】余弦相似度刻画考核对象的偏向性差异,很好的克服了欧式距离只考虑数值绝对值上的差异,具有重要的现实意义。  相似文献   

9.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

10.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

11.
针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现.  相似文献   

12.
为了快速准确地寻找大规模复杂网络的社团结构,文中基于K-均值聚类算法的思想,提出了寻找初始聚类中心的新方法.该算法应用于社会网络分析中的一个经典问题--Zachary网络,获得了满意的结果.  相似文献   

13.
本文将线阵CCD用于热轧带钢头部形状检测,提出空间坐标对应概念,给出图像二值化相关参数选取指导思想;针对带钢头部形态特殊性给出输入图像的滤波方法。实验效果良好。  相似文献   

14.
盈余管理是会计学研究领域的热门课题。针对当前国内盈余管理实证研究中存在信息繁杂、思路不清晰等问题,利用CiteSpace可视化分析工具,筛选出2009—2019年CNKI中国知网所收录有关盈余管理研究文献,绘制出作者、机构、关键词知识图谱。通过对相关文献的研究发现,盈余管理研究领域存在核心群体,高等院校是盈余管理研究的主要阵地,但各院校彼此之间合作较为分散。当前国内盈余管理实证研究处于稳步发展阶段,文献以盈余管理自身为核心,围绕真实盈余管理、盈余质量、应计盈余管理等主题展开论述。  相似文献   

15.
CVC热轧带钢板形控制仿真及软件开发   总被引:1,自引:0,他引:1  
通过对某厂CVC热轧带钢板形控制系统的分析和研究,开发了符合实际生产工艺要求的板形控制仿真软件,并对实际生产中某轧制规程板形控制过程进行离线模拟,板凸度仿真结果可控制在目标范围之内.采用此软件对热轧带钢板形控制进行仿真,其结果对生产实践具有一定的参考指导作用,且可节约大量人力物力.此外,该软件操作方便,界面友好,易于维护,具有广阔的应用前景.  相似文献   

16.
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式.在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪.实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量.  相似文献   

17.
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式.在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪.实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量.  相似文献   

18.
传统的K均值聚类算法是确定性的迭代算法,具有探索能力弱、容易陷入局部最优的缺点.在聚类中心的更新过程中加入系数因子线性递减的随机项,使改进的迭代算法在前期具有强的探索能力,而在后期保持良好的局部搜索能力,同时保持了传统K均值聚类算法结构简单的特点.实例说明,增加了随机项的K均值聚类算法具有良好的全局优化能力.  相似文献   

19.
徐向阳  司智勇 《河南科学》2007,25(4):644-647
聚类是当今数据挖掘领域中最为流行的方法之一,已广泛应用于统计领域、数据库领域、人工智能领域等.着重论述了把K-均值聚类算法应用在关系数据库磁盘文件中的一种思想,允许K-均值方法对磁盘的大数据集进行聚集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号