首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
针对欧式距离在某些数据集合相似性度量中存在区分能力差的缺点,本文提出基于双向KL(Kullback-Leibler)距离聚类算法的变压器状态异常检测一般模型及分析方法。以湖州市某变电站历史监测数据对上述模型进行算例分析,结果表明,该方法消除了欧式距离在变压器状态异常检测中的不足,可有效减少故障漏报信息,具有一定的实用价值。  相似文献   

2.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高。针对这个不足,提出一种特征加权的K-means算法进行优化。首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其次,优化初始聚类中心选择策略,选择距离较大的K个样本作为初始聚类中心,可有效避免样本的错误聚类及空簇问题。实验结果表明,在UCI标准数据集中采用加权K-means聚类算法可以有效减少迭代次数,提高聚类的准确率、精确率和召回率。  相似文献   

3.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

4.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

5.
RNN(相互最近邻)算法是一种基于层次的聚类算法,它比其他传统的层次聚类算法聚类更快.由于利用RNN算法对同一个数据集聚类,若选择不同簇间距离度量方式,那么聚类结果就会不同.因此在分析聚类结果对距离度量方式依赖性的基础上,采用用聚类聚集的思想,找出一种新的聚类方式,从而使得聚类效果更好.  相似文献   

6.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。  相似文献   

7.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

8.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想。针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(Improved Density Peak Clustering Combining Manifold Distance and Label Propagation,简称DPC-ML)。DPC-ML使用流形距离进行距离度量并形成流形距离矩阵,同时定义了一种局部密度,将流形距离与局部密度融合,让局部密度反映出一定的局部距离信息。实验数据表明该算法在处理不同形状,密度不均匀的类簇上有着良好的性能。而且通过绘制决策图发现在不同的人工数据集上的实验显示DPC-ML算法重新定义的局部密度对于类簇中心点的选择区分度更高。由于引入了新的参数邻近点数,故也探究了邻近点数对聚类结果的影响,发现在聚类指标在刚成为连通图时效果最好,进一步证明了流形距离可以对聚类结果性能有所提高。  相似文献   

9.
针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系.提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则.运用传统的K-means算法、不同离群点监测阈值下的改进K-means算法进行...  相似文献   

10.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

11.
为了解决以欧氏距离作为相似性准则的传统模糊聚类算法对多维数据处理不利的问题,采用马氏距离代替欧氏距离,对基于马氏距离的模糊聚类算法进行优化研究,以增强基于马氏距离的模糊聚类算法的聚类效果和能力。通过构造启发式搜索与k-means算法结合的初始优化方法,利用可以自动调节最佳聚类数的有效性函数,提出了一种优化算法KM-FCM,并将此新算法与FCM,FCM-M,M-FCM聚类算法在3个标准数据集上进行了实验。结果表明,KM-FCM算法有效,聚类精度比FCM,FCM-M,M-FCM高,对高维数据聚类识别能力强,具有全局优化作用,并且聚类个数无需提前设定。新算法可为基于马氏距离的模糊聚类算法的优化提供参考。  相似文献   

12.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

13.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

14.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法.改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中.以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析.  相似文献   

15.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

16.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

17.
为减弱经典k-means 算法中RGB( Red Green Blue) 空间各个颜色分量高度线性相关以及欧氏距离的尺度相关性对图像分割结果产生的影响,并克服RGB 空间色彩分布不匀的缺陷,提出了一种基于Lab 颜色空间的改进k-means 聚类彩色图像分割方法。首先,将颜色空间从RGB 转换为Lab 空间,每个像素点都可以由L、a、b 3 分量组合进行表示。其次,用马氏距离替换欧氏距离进行改进,应用改进后的k-means 算法对图像像素点进行聚类,从而实现分割目的。通过实验证明该改进算法比经典k-means 算法具有更好的分割效果和准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号