首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 26 毫秒
1.
传统-means聚类算法的性能依赖于初始聚类中心的选择.本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的K个节点作为聚类的初始聚类中心,然后进行聚类迭代过程.实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量.  相似文献   

2.
针对标签特定特征多标签学习算法(multi-label learning with label-specific features, LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specific features via label correlations, LFLC).将标签空间加入特征空间进行聚类构建分类模型,采用考虑标签相关性的聚类集成技术为每个标签构造标签特定特征,使用相关性矩阵构建无向完全图并挖掘图中标签集合相关性,通过树集成表达标签间多种不同结构的强相关性.在试验部分,采用涵盖不同领域的10个数据集,以Hamming Loss、Ranking Loss、One-error、Coverage、Average Precision和macroAUC为评估指标,进行了参数敏感性分析和统计假设检验.结果表明:结合聚类集成与标签间强相关性的LFLC算法较其他对比多标签算法整体上能取得较好的效果.  相似文献   

3.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

4.
许多成功的社区发现算法已经被广泛应用于复杂网络社区发现任务中.随着数据复杂性的增加,网络中节点间的关系也呈现多样化的特点,因此提出一种基于信息熵的节点稳定性度量方法,衡量网络中节点在社区划分中的稳定性;并在此基础上提出一种基于节点稳定性的社区发现算法(Node Stability-based Algorithm,NSA).首先得到网络的t种社区划分,计算各节点的标签熵,选择熵小于一定阈值的节点作为网络的稳定节点集S;然后,利用所得到的稳定节点集S从原网络中抽取一个包含S的连通子图Gs,使Gs中节点的不稳定性尽可能低;在连通子图Gs上进行社区发现,得到初始聚类结果,再计算其他未聚类节点与初始类簇的距离,确定其社区归属,得到最终聚类结果 .在四个带标签真实网络数据集和八个不带标签的真实网络数据集上,与LPA,Infomap,Walktrap,BGLL,LPA-S等经典算法的比较实验表明,所提出的NSA算法能够较好地进行社区发现,在NMI和模块度等方面表现良好.  相似文献   

5.
社区发现的目标是发现复杂网络的结构、行为和组织形式。标签传播算法是一种快速有效的社区发现算法,然而在初始的标签传播算法中,节点的结构信息和特征信息没有得到充分利用,且存在标签传播过程不稳定的问题。针对上述问题,文章提出了一种基于改进的密度峰值聚类算法和标签传播算法的有向加权复杂网络社区发现算法(DPC-LPA)。该算法首先根据节点的结构和特征对其进行加权,充分利用了结构信息和特征信息;然后,采用改进的密度峰值聚类算法来寻找网络的社区中心,并据此构建初始社区,提高了社区划分的质量;其次,基于节点相似度和节点权重,合理确定标签传播的更新顺序,并通过衡量节点间标签传播的强度来完成标签传播,解决了标签传播算法不稳定的问题。最后,在CiteSeer、Cora、WebKB和SCHOLAT真实数据集上,将DPC-LPA算法与DCN、WCF-LPA、CLPE算法进行对比实验。实验结果证明了DPC-LPA算法的可行性和有效性:从模块度来看,利用DPC-LPA算法划分的社区具有更加显著的社区结构;从调整兰德系数来看,DPC-LPA算法的社区划分质量更稳定;从运行时间来看,DPC-LPA算法具有较高的效率。  相似文献   

6.
不完备数据聚类是聚类分析中的一个重要问题.现有的不完备数据聚类算法对缺失值仅填充一次进行聚类,没有充分利用数据的已知信息,致使填充效果不佳,影响了聚类的有效性.文章提出了一种基于动态填充的不完备数据聚类算法.首先利用均值填充法对缺失数据进行初始完备化,然后利用K-means算法对填充后的数据集进行聚类,同时用含缺失值对象所在类的类中心的相应属性值对其再次填充,直到聚类结果不再变化时停止.该算法在多个UCI数据集上进行了实验验证,结果表明算法是有效的.  相似文献   

7.
行人重识别任务旨在跨相机下检索出特定的行人图像.虽然行人重识别任务得到了快速发展,在检索精度上得到很大的提升,但是依然面临着行人重识别模型在新的数据集上泛化能力有限,以及在无监督领域自适应任务中无法避免的伪标签噪声的问题.针对目前无监督领域自适应任务中由于聚类算法的局限性而导致伪标签出现噪声的问题,提出一种基于多度量融合的无监督领域自适应行人重识别算法.具体而言,多度量融合算法是在目标域上使用DBSCAN(density-based spatial clustering of applications with noise)聚类算法对特征空间的行人特征进行聚类时,通过多个特征相似度度量函数线性加权的方式,计算行人之间的特征相似度,从而在目标域上生成更为准确的伪标签,之后利用该伪标签微调模型.通过在Market1501→DukeMTMC-reID和DukeMTMC-reID→Market1501上大量的实验,证明多度量融合算法有效提升了行人重识别模型在无监督领域自适应任务上的检索精度.  相似文献   

8.
针对K均值聚类随机初始聚类中心导致的聚类结果不稳定问题,提出一种基于仿射传播的聚类集成算法.该算法把每个聚类集成的成员个体结果看成是原始数据的一个属性,然后在其基础上对聚类成员个体的聚类结果进行加权集成,集成算法采用简单高效的仿射传播聚类,并且提出了直接集成、利用平均规范化互信息(NMI)和聚类有效性Silhouette指标进行加权集成.最后,运用Hungarian算法对仿射传播聚类集成的结果进行类别标签的统一和匹配.在加州大学尔湾分校数据集上进行了实验,结果表明,与集成前的K均值聚类及其他聚类集成算法相比,该算法能有效地提高聚类结果的准确性、鲁棒性和稳定性,建立起来的聚类集成算法具有良好的扩展性和灵活性,而且简单有效.  相似文献   

9.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

10.
提出一类基于谱聚类算法的带有节点特征的社区发现算法(SCSA),该算法首先将带有节点特征的网络图转化为加权图,其中边的权重用节点特征相似度度量,然后将谱聚类算法应用到加权图上进行社区检测.SCSA算法将带有节点特征的网络图分成K个社区,每个社区内节点不仅连接良好而且具有相似的特征属性.注意到不是所有节点的特征在社区划分过程中都是有用的,与划分无关的特征信息会降低社区发现算法的准确度.为此,提出了一类节点特征权重自调整机制嵌入到谱聚类中以提高社区检测质量.数值实验的结果验证了所提算法的有效性.  相似文献   

11.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

12.
针对高维数据的聚类过程不够直观、聚类结果也不易解释的问题,本文提出了一种基于改进雷达图的交互式可视化聚类方法。首先对传统雷达图进行了改进,采用熵权法确定数据的主要特征和属性排列,在去掉非主要特征基础上采用以极径表示属性值,以属性权重确定极角的改进雷达图进行数据可视化来突出数据的主要特征;然后采用改进的k-means算法对平面上的点集进行聚类,该改进算法不需事先给定簇的个数,能够依据密度和距离对初始中心进行优化,且在聚类过程中可交互调整参数,并使用不同颜色来区分不同类别,方便观察聚类过程和结果;最后通过仿真实验表明改进的雷达图更能反应数据的分布情况,改进的聚类算法具有更高的效率和聚类准确度。  相似文献   

13.
针对网络入侵检测系统中的一般聚类算法速度较慢和精度较低的问题,提出了一种基于简化群优化的最优路径森林聚类算法(SSO-OFC).首先,将数据集解析为图,将其节点作为样本;然后,将每个样本连接到其给定特征空间中的k-近邻,图的节点由它们的概率密度函数(pdf)值加权得到;最后,通过样本及k-近邻之间的距离计算得到pdf值.提出的算法主要贡献是快速估计最佳k值,并将最优路径森林聚类应用于网络入侵检测.在5个公开的数据集上进行实验.结果表明,SSO-OFC的精度非常稳定,除了KddCup数据集,其他数据集上的精度都在95%以上,相比基于数据聚类的SSO和自组织映射更加稳定有效.  相似文献   

14.
针对基于结构近似度的聚类算法无法解决非对称网络聚类的问题,该文根据社交网络的特点,提出了基于结构近似度的有向社交网络聚类算法,通过将社交网络抽象为图结构,将网络聚类问题看成图论中的子图划分问题,实现了对社交网络的准确聚类分簇,且分簇复杂度较低。使用C++语言编程实现该算法,通过自定义有向网络数据集和标准数据集的测试表明,该算法对社交网络结构的划分较为准确,且能鉴别离群节点和枢纽节点。  相似文献   

15.
提出了一种融合标签局部相关性的标签分布学习(label distribution learning, LDL)算法,该算法分为3个阶段。初始预测阶段构建多层神经网络模型,将样本的原始特征作为输入、初始预测的标签分布作为输出;局部矫正阶段首先利用k-means聚类算法获得不同类所描述的局部信息,然后针对不同类计算对应的协方差矩阵,利用该矩阵来矫正初始预测的标签分布,获得每个类对应的矫正标签分布;标签融合阶段对矫正后的标签分布进行加权,再与初始预测的标签分布进行融合,得到最终的预测分布。在8个公开数据集上与9种常用的LDL算法进行对比实验,结果表明本文的算法能较好地描述标签局部相关性,在多个主流评估指标上排名靠前。  相似文献   

16.
半监督学习方法在多流形学习领域的应用越来越广泛,文章提出了一种基于MPPCA模型的半监督多流形识别算法M2SMPPCA。该算法首先通过MPPCA模型将原始数据集划分成m个"局部数据块",再根据标签信息对这些数据块进行进一步的分解,使每一个数据块中的标签信息一致;然后利用切空间偏差构造能反映出数据点之间局部几何特性的相似图,并通过谱聚类实现多流形的识别;最后利用共协矩阵集成多次分解结果,提高了子流形分解结果的鲁棒性,得到最终的子流形。实验结果表明,该算法在人造数据和实际的高维图像数据上都能有效地分解开相交多流形数据,相较于其他算法极大地提高了分解精度。  相似文献   

17.
考虑加权排序的分类数据聚类算法   总被引:1,自引:0,他引:1  
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

18.
针对网络异常流量检测技术准确率较低、簇的误划分等问题,提出基于改进密度峰值聚类算法的网络异常流量检测方案;首先对网络流量数据进行预处理和分组乱序,然后计算相应属性值并利用局部密度发现簇中心点,最后采用一种新的标签传递方式形成相应的簇群直至处理完所有数据。结果表明,相对于k均值算法和具有噪声的基于密度的聚类算法,基于改进的密度峰值聚类算法提升了网络异常流量的检测准确率,综合性能较优。  相似文献   

19.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

20.
在许多机器学习的任务中,人们常常使用有标签的数据,但是现实中无标签的数据是大量存在的.提出一种基于半监督学习理论的数据降维方法,为能够发现局部的流形结构,算法寻找一个能够最小化类内距离,同时最大化类间距离的投影,同时在最优化过程中借助无标签数据作为调节因子.多个数据库上测试的结果验证了算法的有效性.图2,参13.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号