首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 53 毫秒
1.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

2.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

3.
提出了一种混合约束的半监督聚类算法HCSCAP,综合考虑了已标号点和成对点约束信息,使2类先验信息在聚类的过程中能发挥各自的作用.通过调整相似性矩阵添加成对点约束,已标号点以宏结点的方式添加到相似性矩阵.给出了具体的算法步骤并进行了测试,实验表明:HCSCAP比只利用成对点约束信息的SAP算法和只利用标号点的SS-CA...  相似文献   

4.
5.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

6.
提出一种新的聚类算法——层次谱聚类算法.该算法在传统二分的SM谱聚类的过程中嵌入了层次聚类算法,目的是为了提高谱聚类的聚类正确率,同时又利用谱聚类纠正了层次聚类过程中所得到的歪斜划分.实验结果表明:提出的层次谱聚类算法的聚类正确率比层次聚类算法、谱聚类算法的聚类正确率都要高,同时又纠正了层次聚类过程中的歪斜划分.  相似文献   

7.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

8.
为了提高对未知样本的使用率,充分发挥出半监督聚类算法的优势,ISFCA算法将约束项引入到竞争聚类算法(CA算法)的目标函数中。但在ISFCA算法的隶属度函数中,存在迭代的非必要信息,增加了算法的复杂度。改进了ISFCA算法的隶属度函数,提取出迭代的必要项uCA″rs和非必要项uCA′rs,从而简化隶属度迭代计算过程,使样本的聚类更加合理。实验结果表明,优化后的ISFCA算法对阀门的故障诊断是行之有效的。  相似文献   

9.
基于不完整信息的半监督聚类算法   总被引:1,自引:0,他引:1  
聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析.重点研究半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果.  相似文献   

10.
聚类分析是一种基本的数据分析方法,它在数据挖掘,统计学,空间数据库技术,人工智能,生物学研究,机器学习,模式识别等领域都得到了广泛的应用.论文介绍了各类主要的聚类算法,并概述了其主要应用领域.  相似文献   

11.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

12.
文中提出一种半监督核信任力传播聚类算法(SSKAPC).SSKAPC在对样本聚类的过程中,引入先验知识提高聚类性能;同时该算法将样本映射到高维空间进行聚类.人工数据和真实世界数据的实验表明,SSKAPC算法能大幅度提高聚类的准确性.  相似文献   

13.
 针对一般直觉模糊C均值聚类算法在寻优过程中易陷入局部最优解的问题,利用遗传算法具备全局寻优的优点,提出了一种基于遗传算法的直觉模糊C均值聚类算法。在该算法中聚类中心为直觉模糊数,这使得遗传过程中个体信息变得复杂,进而增大了约束问题的处理难度。本文对产生的个体采用适时分段的归一化方法,很好地解决了该问题。仿真结果表明该算法所得聚类结果不仅准确而且更为细致。  相似文献   

14.
15.
遗传算法(Genetic Algorithm,简称GA)是一类模拟生物界的进化规律(适者生存,优胜劣汰遗传机制)而形成的一种最适应全局优化概率搜索算法。针对常规动态聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题,本文提出了一种基于GA的动态聚类方法,并将它应用到数据库的数据分析中。计算结果表明,该方法是一个具有全局最优解的动态聚类方法,其结果明显好于K-均值聚类算法。  相似文献   

16.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

17.
本文针对数据聚类分析和最优化问题的相似点,用模拟退火算法进行聚类分析。根据数据对象的特征,提出了基于模拟退火的产生函数和迭代方案。通过实例验证,表明该新算法能够有效地解决数据聚类分析问题。  相似文献   

18.
两种基于谱方法的流形学习算法研究   总被引:1,自引:1,他引:0  
流形学习方法是一种新型的非线性降维方法,它可以有效地对具有内在流形形式的非线性高维数据进行维数约简.目前,流形学习已被成功应用于聚类、可视化等数据挖掘领域,表现出卓越的性能.首先讨论了流形学习的研究现状,然后介绍了这一领域中影响最大的2种算法:局部线性嵌入算法和等距特征映射算法.  相似文献   

19.
随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注,异常点挖掘在信息科学研究领域日益受到重视.本文首先给出异常点的定义,并在聚类分析的基础上对PAM算法、BIRCH算法、DBSCAN算法和CURE算法在算法效率、适合的数据类型、发现的聚类类型、对异常数据的敏感性、空间复杂性、时间复杂性、使用的方法等方面进行了比较研究,最后给出了如何使用这些聚类算法处理异常点的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号