期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱凤梅张道强《广西师范大学学报(自然科学版)》2008,26(3)

半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性. 相似文献

2.

基于成对约束的主动学习半监督聚类算法

蒋伟进许宇晖郭宏许宇胜王欣《应用基础与工程科学学报》2014,(6)

半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能. 相似文献

3.

一种基于Seeds集和成对约束的主动半监督聚类算法

陈志雨王慧君胡明刘钢《吉林大学学报(理学版)》2017,55(3):664-672

针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率. 相似文献

4.

基于ELM集成和半监督聚类的SNS隐私保护

李昆仑王哲张娟武倩宋嵩《河北大学学报(自然科学版)》2013,33(1):84-89

针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性. 相似文献

5.

基于半监督K-means的K值全局寻优算法 总被引：3，自引：0，他引：3

孙雪李昆仑胡夕坤赵瑞《北京交通大学学报(自然科学版)》2009,33(6)

提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能. 相似文献

6.

半监督聚类中成对约束的主动学习

杨洋王立宏《广西师范大学学报(自然科学版)》2011,29(1):87-91

本文提出一种纠错式主动学习成对约束的方法,探讨了主动学习的停止条件,在较少的约束下可得到较好的聚类结果.通过在UCI基准数据集以及人工数据集的实验表明,在该学习策略下,半监督聚类算法的性能好于对比算法;在停止条件下,每个数据集的聚类结果都是可接受的. 相似文献

7.

无监督多尺度模糊聚类算法研究

魏娜王建勋兰文祥《空军工程大学学报(自然科学版)》2011,12(1)

针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果. 相似文献

8.

基于半监督学习的k平均聚类框架

陈新泉苏锦钿《广西大学学报(自然科学版)》2014,(5)

为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明：该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。相似文献

9.

一种基于流形距离核的谱聚类和量子聚类融合算法

马宇红李兴义薛生倩王小小《西北师范大学学报(自然科学版)》2023,(2):37-46

谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出. 相似文献

10.

基于局部线性嵌入的半监督仿射传播聚类算法 总被引：1，自引：0，他引：1

赵小强谢亚萍《兰州理工大学学报》2015,41(1)

针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少. 相似文献

11.

一种基于密度的增量 k-means 聚类算法研究

司福明《长春工程学院学报(自然科学版)》2016,17(2):99-102

介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。相似文献

12.

Scalable classification by clustering： Hybrid can be better than Pure

邓胜春 He Zengyou Xu Xiaofei 《高技术通讯(英文版)》2007,13(2):131-135

The problem of scalable classification by clustering in large databases was discussed. Clustering based classification method first generates clusters using clustering algorithms. To classify new coming da-ta points, it finds the κ nearest clusters of the data point as neighbors, and assign each data point to the dominant class of these neighbors. Existing algorithms incorporated class information in making clustering decisions and produced pure clusters （each cluster associated with only one class）. We presented hybrid cluster based algorithms, which produce clusters by unsupervised clustering and allow each cluster associ- ated with multiple classes. Experimental results show that hybrid cluster based algorithms outperform pure ones in both classification accuracy and training soeed. 相似文献

13.

Clustering Categorical Data：A Cluster Ensemble Approach

何增友 Xu Xiaofei Deng Shengchun 《高技术通讯(英文版)》2003,9(4):8-12

Clustering categorical data, an integral part of data mining, has attracted much attention recently. In this paper, the authors formally define the categorical data clustering problem as an optimization problem from the viewpoint of cluster ensemble, and apply cluster ensemble approach for clustering categorical data. Experimental results on real datasets show that better clustering accuracy can be obtained by comparing with existing categorical data clustering algorithms. 相似文献

14.

一种基于密度的聚类算法实现 总被引：1，自引：0，他引：1

段明秀唐超琳《吉首大学学报(自然科学版)》2013,34(1):26-27

基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构. 相似文献

15.

组移动模式挖掘中轨迹聚类的置信区间法

蒋夏军皮德常张育平《中国科技论文在线》2013,(10):981-985

在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。相似文献

16.

一种改进的数据流聚类方法

耿德志《山西师范大学学报：自然科学版》2014,(3):22-25

针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题. 相似文献

17.

基于巢模板的核空间蚁群聚类算法

下载免费PDF全文

覃华徐燕子张敏《广西科学院学报》2010,26(4):406-408,411

为了改进蚁群算法因大量引入随机机制所引发的不稳定性,引入巢模板来改进聚类规则,提出一种基于巢模板的核空间蚁群聚类算法,并与原空间上的聚类算法进行比对。该算法用支持向量机的非线性映射函数把数据样本映射到核空间,再用巢模板记忆蚁群群体特征。核空间上的巢模板蚁群聚类算法能较好地处理特征复杂、类别多的数据集,其聚类结果比较接近真实情况,并且效果明显优于原空间上的聚类算法。相似文献

18.

Adaptive spectral clustering ensemble selection via resampling and population-based incremental learning algorithm

Yuanchun Xu Jianhua Jia 《武汉大学学报:自然科学英文版》2011,16(3):228-236

In this paper,we explore a novel ensemble method for spectral clustering.In contrast to the traditional clustering ensemble methods that combine all the obtained clustering results,we propose the adaptive spectral clustering ensemble method to achieve a better clustering solution.This method can adaptively assess the number of the component members,which is not owned by many other algorithms.The component clusterings of the ensemble system are generated by spectral clustering(SC) which bears some good characteristics to engender the diverse committees.The selection process works by evaluating the generated component spectral clustering through resampling technique and population-based incremental learning algorithm(PBIL).Experimental results on UCI datasets demonstrate that the proposed algorithm can achieve better results compared with traditional clustering ensemble methods,especially when the number of component clusterings is large. 相似文献

19.

聚类算法在基因表达数据分析中的应用 总被引：1，自引：0，他引：1

朱婵许龙飞《华侨大学学报(自然科学版)》2005,26(1):7-10

聚类算法在基因表达数据的分析处理中得到日益广泛的应用．文中对几种典型的聚类算法进行描述，对各算法在基因表达数据处理中的特点，进行评价并提出改进的策略．最后，指出聚类算法在生物信息学应用中的发展趋势。相似文献

20.

文本聚类算法的比较 总被引：3，自引：0，他引：3

李伟黄颖《科技情报开发与经济》2006,16(22):234-236

聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。相似文献