首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 216 毫秒
1.
硬聚类要求聚类的结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而,将某些不确定的对象强制分配到某个类中往往容易带来较高的决策风险.三支聚类将确定的元素放入核心域中,将不确定的元素放入边界域中延迟决策,可以有效地降低决策风险.本文将三支决策理论与传统的谱聚类算法相结合给出了三支谱聚类的聚类算法.该方法通过修改谱聚类算法的聚类过程并获得任一类簇的上界.然后通过扰动分析从该类簇的上界分离出该类簇的核心域,同时上界与核心域的差值认为是该类簇的边界域.在UCI数据集上的实验结果显示,该方法能有效提高聚类结果的ACC、AS、ARI值,并且降低DBI值.  相似文献   

2.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

3.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

4.
针对K均值聚类(K-means)算法处理复杂问题时易陷入局部最优值、聚类质量较差等不足,提出一种基于粒子群的三支聚类算法.该算法先以随机产生的聚类中心组合作为初始粒子,构成粒子群;然后,通过调整算法中的速度公式参数,使粒子在迭代过程中能较快速地找出全局最优解,即最优的聚类中心;最后,采用三支决策的方法考察数据与类的关系,把确定归属的数据分配到类的核心域,归属不确定的数据分配到类的边界域.实验结果验证了所提算法的有效性,在寻找全局最优值和聚类结果准确性等方面算法都具有较好的性能.  相似文献   

5.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

6.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

7.
二支聚类要求聚类结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而在许多实际问题中,一个对象和类别可能会有三种关系:即确定属于、确定不属于和无法确定.为了克服二支聚类的这一问题,三支聚类使用核心域,边界域和琐碎域来表示每个类别,较好地处理了具有不确定性对象的聚类问题.给出一种基于样本稳定性的三支聚类算法.首先使用聚类集成的结果计算出每个数据的稳定性,然后基于阈值将这些数据元素分为两部分:核与环.对核中的数据采用硬聚类进行聚类,对环中的数据通过比较环中数据到聚类中心的距离将它们分到相应类的边界域中.通过以上策略,可以得到三支聚类的核心域和边界域.在UCI数据集上的实验结果显示,该方法能更好地显示出聚类的结构.  相似文献   

8.
三支聚类对不确定对象引入了边界域,可以有效解决传统二支聚类方法中由于信息不完整而导致划分不准确的问题。如何获得三支聚类的核心域和边界域是目前研究三支聚类的重点之一。该文将共现概率与三支聚类相结合,提出了基于共现概率的三支聚类模型。首先,基于朴素贝叶斯确定两样本的共现概率;其次,给出了基于共现概率的相似关系及其粗糙集的下、上近似,获得三支聚类的核心域和边界域;最后,在UCI数据集上的实验结果显示,该方法提高了聚类精度,验证了其可行性。  相似文献   

9.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

10.
利用粗糙集中的三支决策思想,将类用正域、负域和边界域刻画,得到初始聚类结果。然后通过定义重叠度和类与类的合并策略,将初始聚类结果进行合并,得到最终聚类结果。之后应用2个关系网络数据展示了具体的聚类步骤,并通过比较2个例子的聚类结果,分析了影响聚类结果的一个主要因素:阈值的选取。实验表明:阈值的选取对简单的网络结构数据集的聚类结果的影响并不明显,然而对复杂的网络结构数据集的聚类结果的影响则较为显著。  相似文献   

11.
针对隶属关系不明确的情况,即样本点属于多个类别的概率接近,高斯混合模型聚类存在较大的误判风险的问题,将三支决策思想融入高斯混合模型中,提出一种基于三支决策的高斯混合聚类算法.新算法计算出数据对象属于各个类簇的后验概率作为决策评价函数,用于确定聚类结果的正域和边界域.由于新算法对边界对象采取了比一般高斯混合聚类算法更加谨慎的操作,避免了直接做出对象属于某一类或不属于某一类的决策所需承担的风险,从而有效减小了误判代价.实验进一步表明,所提出的算法不仅继承了高斯混合聚算法的特点,具有良好的聚类性能,而且还对于非球形数据簇表现出优良的聚类效果.  相似文献   

12.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

13.
梁卓灵  元昌安  覃晓 《广西科学》2020,27(6):616-621
为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss (NJW)谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法(Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC),然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。  相似文献   

14.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

15.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

16.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

17.
该文针对社团划分存在的重叠区域问题引入三支决策思想,提出了一种基于吸收度的社团划分算法(3WD-PPOC).3WD-PPOC首先根据网络结构的重要度矩阵进行社团的初始划分,再利用F吸收度来构建社团间的重叠区,即社团边界域,并得到各社团的正域,最后通过P吸收度来完成对在社团边界域中节点的再次划分和社团正域的更新.对比同类算法,3WD-PPOC具有较低的时间复杂度.实验结果进一步表明:3WD-PPOC能够有效地进行社团划分,相比其他社团划分算法,3WD-PPOC表现出更好的社团划分质量,划分后的各社团结构更紧密.该算法对社团重叠节点的划分具有较好的稳定性.  相似文献   

18.
首先,通过对象诱导的三支条件近似概念格和三支决策近似概念格的细于关系,定义了不完备决策背景的OE-协调性;然后,在OE-协调的不完备决策背景上提出了对象诱导三支规则的提取方法, 分别从正面和负面的角度对规则进行获取和解释, 给出了冗余规则的判定定理及非冗余规则集的提取算法;最后,利用包含度理论,提出了带有置信度的三支规则提取方法, 提供了更为丰富的细节, 使得获取的规则更加完善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号