首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

2.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

3.
聚类通常被认为是一种无监督的数据分析方法,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能。本文通过成对约束来调整点与点之间的相似矩阵,然后对其优化,并结合谱聚类算法,得到一种很有效的聚类算法——基于成对约束的半监督谱聚类算法(SSCA)。实验表明,该算法有很好的聚类效果。  相似文献   

4.
目前已有的成对约束模糊核聚类研究中,缺乏对成对约束信息的有效测度,进而无法充分利用成对约束这类半监督信息。在成对约束核聚类的基础上,文中提出基于交叉熵测度的成对约束核聚类算法。利用对象交叉熵测度工具,提出最小-最大交叉熵隶属度学习准则,并作为成对约束信息测度项引入到成对约束核聚类的目标函数中,通过拉格朗日最优化处理目标函数,推导出相应聚类算法。实验进一步表明,该算法能够更有效利用成对约束半监督信息提升聚类性能。  相似文献   

5.
多视角子空间聚类是一种利用视角之间的互补信息,找到视角间统一的表示并发现潜在分组结构的方法,近年来已成为机器学习的研究热点.提出一种基于低秩稀疏约束的自权重子空间聚类算法.具体的,低秩稀疏约束能发现数据的全局和局部结构信息,使自表示矩阵呈现稀疏性和低秩的特点;而自权重方法利用视角表示矩阵与共享相似度矩阵之间距离的反比为每个视角分配合理的权重,同时学习到一个视角之间共享的相似度矩阵,降低受损视角对于共享相似度矩阵的影响.以上提到的两种方法组成一个统一的优化框架,再使用增广拉格朗日乘子交换方向最小化方法(ALMADM)对提出的聚类算法进行优化.在基准数据集中的实验结果证明该算法比其他算法更有效.  相似文献   

6.
提出一种基于粗糙模糊集的层次聚类算法。在该算法中,通过事务间的相似性关系生成用户事务模糊矩阵,运用基于模糊矩阵的粗糙上近似提取初始类,使用约束相似性的上近似概念形成后续类,其中的一个相对的相似性条件被用作合并准则。该算法可以帮助Web挖掘者描述潜在的新的Web用户组特性。  相似文献   

7.
同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数,并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。  相似文献   

8.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

9.
针对基因表达数据高维、高噪声等特点,提出了一种基于正交约束的负矩阵分解算法;该算法将正交约束引入到β散度矩阵分解的准则函数中进行优化求解,用梯度下降方法得出矩阵分解的乘积迭代规则,并利用分解项来降低特征空间的维度,将得到的向量用于K均值聚类;实验中选择5种肿瘤基因表达数据,实验结果表明:改进的算法分解所得矩阵在聚类效果上明显优于其他的方法.  相似文献   

10.
降维作为聚类问题的关键预处理步骤被用来抽取高维数据潜在的低维子空间结构.面对高维数据聚类,传统的策略是首先采用降维技术提取高维数据嵌入在低维空间的潜在数据结构,然后利用一个聚类算法完成数据聚类.然而,这种两阶段优化策略的聚类性能往往不如直接优化统一的目标函数.因此,在模糊聚类算法的基础上,本文提出了一种稀疏约束的嵌入式模糊均值聚类算法(EFSC),该方法结合线性正交投影技术在对高维数据降维的同时完成聚类.EFSC模型对模糊矩阵施加了稀疏约束来提升聚类性能.理论分析与实验结果证明了本文提出的EFSC算法的有效性.  相似文献   

11.
针对基于流形正则化自表示(MRSR)的无监督特征选择算法直接从原始的样本空间构造相似矩阵可能会 导致重构空间中样本的相似性描述得不够准确的问题,提出了基于自适应流形正则化自表示的无监督特征选择 (AMRSR)算法。 基于自适应流形正则化自表示的无监督特征选择算法在 MRSR 算法的基础上通过对相似矩阵施 加概率最近邻约束将相似矩阵的学习嵌入到优化过程中,在重构空间中自适应地学习样本的相似性,使得在每一 次迭代中获取更加精确的样本局部几何流形结构,从而选择具有代表性且保持局部几何流形结构的特征。 最后, 在四个公开数据集上进行了大量的对比实验,通过将算法的特征选择结果用于 K-means 聚类并采取两种常见的聚 类评价指标:聚类精确度和归一化互信息评价聚类效果。 实验结果表明,AMRSR 算法与现有的一些算法相比有更 高的聚类精确度和归一化互信息,进一步表明该算法特征选择效果更好。  相似文献   

12.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

13.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

14.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

15.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

16.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

17.
为了解决现有生物激励设计过程存在的跨领域知识获取难的问题,提出了面向生物激励设计的基于功能特征语义相关性的功能语义聚类和基于环境特征约束适应性的环境约束聚类组成的两阶段知识元聚类算法。将生物激励设计过程跨领域实例知识检索问题转化为对离散的生物领域或工程领域知识元的聚类检索。根据跨领域术语知识表示的不同确定跨领域检索功能词,执行基于功能特征语义相关性的功能语义的一阶段聚类,结合生物领域功能与环境特征约束间的相关性,完成基于不同类型环境特征约束的二阶段聚类。一方面,将模糊理论与模糊数学引入知识元聚类算法中,提出基于模糊隶属度函数的语义相似度计算方法,实现了基于功能关键字的语义聚类;另一方面,将FCM聚类算法引入到知识元聚类过程中,结合给出的不同类型环境特征约束相似性算法,提出了AFCM算法,实现了基于环境特征约束适应性的环境约束聚类。最后,开发了相应的原型系统,并且以视觉假体装置设计为例进行测试。结果表明,聚类时间和准确率得到极大改善,聚类效率得到显著提升。该算法有效地避免了跨领域知识分布的离散性,减少了设计过程中研究对象的数量,能够合理地获取已有设计知识,为深入研究奠定了基础。  相似文献   

18.
基于传统的Fuzzy等价关系聚类法,由Fuzzy相似矩阵构建Fuzzy等价矩阵,对传递闭包采用Warshall算法求解,并选择不同置信水平下的分类,利用偏差度得到最优聚类.结合北京市朝阳区近3个月新开楼盘的数据,选择可靠性指标,在最佳置信水平的基础上对其进行最优聚类,实验结果与事实吻合.  相似文献   

19.
该文提出了一种基于全局-局部结构保持的稀疏投影模型(GLSPP).通过对投影数据进行线性重构来保持数据的全局结构,从而保留投影数据的全局信息.通过约束重构系数矩阵与相似性矩阵的相似性来保持全局保持数据和局部保持投影数据的一致性.同时,对重构系数矩阵和相似性矩阵进行稀疏约束,保留主要信息,以减少冗余信息的干扰.在公开的4个人脸与物体数据集上的实验结果显示:该方法具有较高的分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号