期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《中南大学学报(自然科学版)》2015,(6)

目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。相似文献

2.

一种鲁棒的子空间聚类算法 总被引：2，自引：1，他引：1

彭柳青张军英《西安交通大学学报》2011,45(6):13-19

针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性. 相似文献

3.

深度低秩多视角子空间聚类

闫金涛李钟毓唐启凡周志豪《西安交通大学学报》2021,(11):125-135

针对目前深度多视角子空间聚类算法因为缺少对自表达矩阵的低秩表示约束而导致的模型缺乏鲁棒性的问题,提出了深度低秩多视角子空间聚类算法。在深度多视角子空间聚类算法的基础上,通过矩阵分解将自表达层分解为多视角一致性自表达层和单视角特异性自表达层,得到具有低秩线型约束的双层自表达模块;强制所有视角的一致性自表达层的参数相同、特异性自表达层的参数各不相同,充分利用多视角数据的互补性;将自表达模块嵌入到每个视角的深度自编码器中,得到可以通过反向传播算法求解的深度低秩多视角子空间聚类模型;在深度模型训练中,一致性自表达层学习多视角数据的一致性信息,特异性自表达层学习单个视角的独特信息,双层自表达模块隐性地添加了低秩表示约束。6个公开数据集上的实验结果表明:与深度多视角子空间聚类算法相比,所提算法的聚类正确率平均提升了0.064,标准化互信息提升了0.064;所提算法的正确率和标准化互信息优于其他11种先进聚类算法的,聚类正确率最大提升了0.097,标准化互信息最大提升了0.103。相似文献

4.

一种高维分类型数据的子空间聚类算法

孙浩军李惊涛张磊张崇锐肖婷《汕头大学学报(自然科学版)》2014,(3):51-59

子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性. 相似文献

5.

基于低秩稀疏约束的自权重多视角子空间聚类

夏菁丁世飞《南京大学学报(自然科学版)》2020,(6):862-869

多视角子空间聚类是一种利用视角之间的互补信息,找到视角间统一的表示并发现潜在分组结构的方法,近年来已成为机器学习的研究热点.提出一种基于低秩稀疏约束的自权重子空间聚类算法.具体的,低秩稀疏约束能发现数据的全局和局部结构信息,使自表示矩阵呈现稀疏性和低秩的特点;而自权重方法利用视角表示矩阵与共享相似度矩阵之间距离的反比为每个视角分配合理的权重,同时学习到一个视角之间共享的相似度矩阵,降低受损视角对于共享相似度矩阵的影响.以上提到的两种方法组成一个统一的优化框架,再使用增广拉格朗日乘子交换方向最小化方法(ALMADM)对提出的聚类算法进行优化.在基准数据集中的实验结果证明该算法比其他算法更有效. 相似文献

6.

异构数据联合式的真值发现算法

陈超申德荣寇月于戈《东北大学学报(自然科学版)》2017,38(10):1373-1377

互联网上提供的同一事实的信息通常会存在冲突,影响数据集成和知识发现.为了甄别真值,提出了一种基于距离的异构数据联合真值发现算法.首先,关于同一数据项,基于数据源声明值与真值的距离,计算数据项向量;采用KMeans聚类算法,获得数据项初始聚类.然后,迭代进行信任分析和聚类,即在每个类簇内,采用最优化思想,联合异构类型数据,更新事实的可信度和数据源的类簇内可靠性,重新计算每个数据项向量,再次聚类,迭代直至类簇达到稳定.实验结果表明:由于细粒度的数据源质量划分,联合考虑异构数据类型,可以获得更高的真值发现准确度. 相似文献

7.

一种基于密度和网格的高效聚类算法 总被引：1，自引：0，他引：1

刘章雄刘宴兵罗来明《重庆邮电大学学报(自然科学版)》2010,22(2):242-247

聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高. 相似文献

8.

基于簇特征的文本增量聚类研究

潘敏王明文王晓庆揭安全《江西师范大学学报(自然科学版)》2014,(1):95-101

提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势. 相似文献

9.

基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法

张喜梅解滨徐童童张春昊《南京理工大学学报(自然科学版)》2023,(1):56-65

传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响，为了避免这些影响，该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻，针对不同规模、不同密度分布数据集，可以自适应地搜索密度峰值点作为初始类簇中心；自适应设定相对簇半径，并通过样本加权进行类簇中心迭代，在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明，该算法在聚类性能提升的同时迭代次数大幅降低，随着入侵行为类型和数据规模的增加，该文聚类算法仍体现出较好的性能，且在发现未知攻击类型上效果显著。相似文献

10.

噪声环境下复杂流形数据的势能层次聚类算法

于晓飞葛洪伟《重庆邮电大学学报(自然科学版)》2018,30(6):848-854

基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。相似文献

11.

一种高效的K-means聚类改进算法

张洁玲白清源《福州大学学报(自然科学版)》2014,42(4):537-542

针对传统K-means算法在初始质心选取的敏感性以及迭代计算的冗余性这两方面的缺陷,提出一种高效的聚类算法(ECA).根据数据对象的空间分布情况,首先采用空间划分预聚类算法(SDPCA)对数据集实现预聚类划分,然后采用基于邻近簇调整的优化聚类算法(OCANC)对预聚类成果进行优化处理,最终获取聚类成果.实验证明,该改进算法能消除对初始输入的敏感性,以更高的运行效率获取较高质量的聚类结果. 相似文献

12.

基于属性分组的子空间聚类算法研究

庞宁靳黎忠《西南民族大学学报(自然科学版)》2023,(6):653-660

针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类效果,通过迭代优化簇集结构,达到最佳的数据划分状态.在人工合成数据集和UCI数据集上,实验验证了该算法的正确性、高效性和可靠性. 相似文献

13.

一种基于密度和网格的高效聚类算法(英文)

刘章雄刘宴兵罗来明《重庆邮电学院学报(自然科学版)》2010,(2)

聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。相似文献

14.

基于乘客需求数据的定制商务班车站点选址方法

孙悦宋瑞邱果《山东科学》2019,32(1):102-112

针对基础的聚类算法无法适应定制商务班车站点设置的问题,在传统的基于密度的带有噪声的空间聚类算法基础上,通过衡量类簇精细化服务指标确定分组效果,并对聚类效果不理想的组别依据其数据特征自动更新以扫描半径和最小包含点数为代表的聚类参数,进行迭代聚类,直到聚类效果达标为止。同时,结合节点重要度的思想改进基于密度的带有噪声的空间聚类算法,使其能够输出备选站点。研究结果表明,改进的算法能够较好地根据数据特征给出应有分组,给出的扫描半径和最小包含点参数能够较好地适应分组情况,备选节点能够有效地匹配周围的交通资源。相似文献

15.

基于PAM和簇阈值的改进K-Means聚类算法

卜旭松刘立波石磊《孝感学院学报》2015,(3):36-39

为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。相似文献

16.

基于粗糙集的高维分类型数据子空间聚类算法

孙浩军游俊斌吴廷发《汕头大学学报(自然科学版)》2012,(4):46-53

现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高. 相似文献

17.

一种基于密度的引力聚类算法 总被引：1，自引：0，他引：1

张天伍李卫平《河南科学》2008,26(11)

针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量. 相似文献

18.

基于概率分布和形态学的快速聚类算法

张强赵政《天津大学学报(自然科学与工程技术版)》2006,39(9):1126-1130

提出了一种新的聚类算法PMM，使用概率分析和密度直方图法确定密度阈值，应用多密度阈值对数据空间进行滤波以消除不相关数据的干扰，使用数学形态学理论发现聚类簇，提高了聚类的准确性，按照聚类的特点实现了相关形态学操作的快速算法，提高了运算效率．实验表明PMM的计算复杂度与数据量呈线性关系，能够发现任意形状的聚类簇，对噪声不敏感，并能区分密度不同的聚类簇．相似文献

19.

基于密度的全局K-means算法的改进

徐娟范菁陈楚天曲金帅《云南民族大学学报(自然科学版)》2019,(2):160-164

针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高. 相似文献

20.

非线性多视角子空间聚类方法

下载免费PDF全文

陈智平陈晓云简彩仁《福州大学学报(自然科学版)》2020,48(1):7-13

不同视角特征构成的数据比单视角特征具有更多的信息,充分利用多视角特征可以提高聚类效果.由于不同视角空间中的特征不具有可比性,基于线性表示理论的子空间学习方法通过学习表示矩阵挖掘互补信息.但现实数据多是非线性的,线性表示理论不利于发现数据的非线性关系.针对该问题,采用非线性投影及流形正则项来刻画多视角下的非线性数据,实验结果表明,所提方法能够对多视角数据进行有效聚类. 相似文献