首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

2.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

3.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

4.
将原始数据投影到一个包含几何一致性和簇分配一致性的空间,并且可以自适应学习几乎所有参数的多视图聚类算法,能够获得良好的聚类效果,但这样做没有考虑多视图中不同样本重要性不同的特点,忽视了噪声点与离群点对聚类效果造成的不利影响.针对上述问题,对样本重要性进行研究,提出一种自适应样本加权的多视图聚类算法.该算法对视图中不同的样本根据其重要性进行加权处理:首先给每个样本分配相同的权重,在之后的每次迭代中,不断进行自适应调整直至达到收敛条件.实验结果表明,该算法可以获得更好的实验效果.  相似文献   

5.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

6.
聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异.受到信息熵的启发,提出一种基于信息熵加权的聚类集成算法.算法首先对每个簇的不稳定性进行衡量,然后提出一种基于信息熵的簇评价指标,进而从簇层面进行加权,在对加权矩阵进行划分后得到最终的聚类结果 .该算法有两个主要优点:第一,提出了一个有效的簇评价性指标;第二,从比基聚类层面更细化的簇层面进行加权.一系列的实验证明了该算法的有效性和鲁棒性.  相似文献   

7.
传统软子空间聚类算法在利用局部搜索策略解决等式约束的连续非线性的变量加权问题时,易陷入局部最优导致聚类效果不佳.针对该问题,该文提出了一种随机学习萤火虫算法优化的模糊软子空间聚类算法.该算法利用具有全局搜索能力的萤火虫算法对新算法的目标函数进行优化,同时,为弥补萤火虫算法易提前收敛和寻优精度较低的缺陷,对萤火虫种群进化方式和全局最优粒子的学习方式进行了改进.新算法将权值矩阵拟化成萤火虫种群,使变量加权的等式约束变为界约束,通过萤火虫位置的更新搜索最优权重并发掘子空间中隐藏的簇类.在人工数据集、UCI标准数据集和癌症基因表达数据集上的实验结果表明:该算法具有较好的聚类效果.  相似文献   

8.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

9.
子空间聚类能有效的发现各簇与所属于的子空间的联系,同时减少高维数据中因为数据冗余和不相关属性对聚类过程产生的干扰.已有的子空间聚类方法强调各子空间中簇的发现,往往忽略子空间的划分.提出了基于属性最大间隔的子空间聚类,该方法主要思想是对子空间的划分时信息的丢失达到最小,从而子空间聚类的结果的效果比较好.主要工作包括:第一,建立了子空间划分的目标函数,也就是使各划分的子空间相互依赖达到最小,第二,设计了基于属性最大间隔的子空间聚类算法Maximum Margin Subspace Clustering(MMSC)进行子空间聚类集成.最后,采用UCI和NIPS2013比赛等数据来做实验,结果表明,在大多数数据上MMSC算法比其他子空间算法能得到更好的聚类结果.  相似文献   

10.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

11.
针对战场环境下通信质量较低的问题,提出了一种基于加权的具有相同移动特性的车载自组网分簇算法。首先通过对移动节点的速度相似度和距离相似度进行计算,将具有相同移动特性且距离相近的节点分为同一个簇,并设置每个分簇中簇成员的最大阈值;计算移动节点的速度因子、距离因子和平均链路维持率,并在分簇中对每个移动节点的这3个因素进行加权,选取权值最大的作为首要簇头,权值第二大的作为次要簇头,首要簇头失效时次要簇头充当主要簇头角色,且主要簇头给每个成员分配了TDMA时隙,提高了通信质量。仿真实验结果表明:与WCA算法和WBACA算法相比,该分簇算法在簇结构的稳定性和分组投递率方面都有较大的改善。  相似文献   

12.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

13.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

14.
电力负荷聚类分析研究是负荷特性模拟、需求侧管理等应用的基础。针对负荷数据日趋多样性、随机性,传统K-means算法无法有效处理高维数据,且存在人工给定聚类数目K值及随机选取初始聚类中心易收敛至局部最优的问题,本文提出一种基于自编码器(Auto-Encoder,AE)降维的电力负荷聚类方法。首先利用自编码器网络对采集的负荷数据提取特征,降低数据维度,然后通过密度权值Canopy算法对降维后的数据预聚类,得到初始聚类中心和最优聚类数目K值,将预聚类结果结合K-means算法进行聚类。算例结果表明,该方法能够有效对负荷数据进行特征提取,并减少聚类过程中的复杂度,提高了聚类结果准确度和聚类效率。  相似文献   

15.
陈宇  张勇  陈实 《北京理工大学学报》2021,41(11):1188-1192
针对平面管理结构在大规模卫星集群网络中的缺点,提出了一种自适应分布式加权分簇算法(adaptive distributed weighted clustering algorithm,ADWCA),该算法根据卫星网络运行的可预测性,在初始化阶段由地面计算各卫星节点综合权值并划分簇首和成员节点,完成之后上注到星上,之后集群中卫星节点根据邻居及自身信息完全分布式地执行维护进程.仿真分析表明,与最小标识优先分簇算法和最大连接度优先分簇算法相比,该算法生成的簇结构具有更少的簇数量、良好的稳定性,且能够有效均衡簇头节点的负载.   相似文献   

16.
针对无线传感器网络(WSN)中的能耗和安全问题,提出一种融合蜜蜂交配优化(HBMO)算法和轻量级信任机制的WSN分簇方法(LWT-HBM).首先,将WSN分成若干个小区,通过HBMO算法选择各自最优的簇头;然后,构建分簇结构,根据簇头和基站的距离设置簇的大小.在簇头能量消耗殆尽前,会利用HBMO选择替代簇头,以此均衡网络能源.在选择簇头的同时,融入轻量级信任机制,根据直接信任和间接信任值来评估节点的可信任度,避免恶意节点被选择为簇头.同时给出了一种精确能耗模型用来计算系统的整体能耗.通过实验将此方法与LEACH和TBCMA方法进行比较,结果表明LWT-HBM方法具有更低的能耗,有效的延长了网络寿命.  相似文献   

17.
有效减少网络能耗,从而提高整体网络寿命是无线传感网领域中的关键问题,LEACH和DEBR等分簇路由算法可以初步提高网络寿命和网络延展性.研究了簇头选择、簇的形成和数据路由3个阶段,提出了一种基于能量均衡的分布式聚类均衡路由算法,通过传感节点的剩余能量、邻居个数以及簇头能耗的混合权重来选择簇头和分簇,考虑每条路径的消耗来选择最佳路径,有效改进了LEACH随机选择簇头节点和DEBR传送延迟导致的网络分割和能耗不均等问题.仿真结果表明,该算法有效平衡并降低了节点能耗,使得网络中生存节点数在相同周期内有较大提升,从而延长了整个网络的生命周期.  相似文献   

18.
针对当前无线传感器网络路由算法存在数据传输成功率低、 网络时延长和丢包率高等缺陷, 为获得更优的数据传输结果, 提出一种基于证据理论加权融合 的无线传感器网络路由算法. 首先引入聚类分析算法对无线传感器网络进行分簇, 使簇首的分布更均匀, 解决簇首过于集中、 簇成员节点分配不合理的问题; 然后采用证据理论计算剩余能量、 节点间通信距离、通信能耗的权值, 并根据权值对每个节点的性能进行综合评价, 根据综合评价结果选择每个簇最合理的簇首; 最后与其他无线传感器网络路由算法进行对比测试. 测试结果表明, 相对于对比算法, 该算法数据时延均值和丢包率均大幅度减少, 改善了数据传输成功率, 使节点之间的能耗更均衡, 延长了无线传感器网络的生存周期, 建立的无线传感器网络路由可靠性更高.  相似文献   

19.
LEACH是无线传感器网络中一种经典的降低网络耗能的分簇路由算法,该算法可有效的延长网络的生命周期,具有平面路由协议无可比拟的优越性。但其簇头选举机制是随机的,没有考虑候选节点的剩余能量等因素。本文基于LEACH提出了一种改进算法,通过节点权值来选择簇头,权值是本轮候选节点的剩余能量、节点密度和距离基站远近的一种数学关系的度量。依此来均衡网络负载,延长整个网络的生命周期。  相似文献   

20.
针对当前无线传感器网络路由算法存在数据传输成功率低、 网络时延长和丢包率高等缺陷, 为获得更优的数据传输结果, 提出一种基于证据理论加权融合 的无线传感器网络路由算法. 首先引入聚类分析算法对无线传感器网络进行分簇, 使簇首的分布更均匀, 解决簇首过于集中、 簇成员节点分配不合理的问题; 然后采用证据理论计算剩余能量、 节点间通信距离、通信能耗的权值, 并根据权值对每个节点的性能进行综合评价, 根据综合评价结果选择每个簇最合理的簇首; 最后与其他无线传感器网络路由算法进行对比测试. 测试结果表明, 相对于对比算法, 该算法数据时延均值和丢包率均大幅度减少, 改善了数据传输成功率, 使节点之间的能耗更均衡, 延长了无线传感器网络的生存周期, 建立的无线传感器网络路由可靠性更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号