共查询到19条相似文献,搜索用时 78 毫秒
1.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能. 相似文献
2.
提出了一种混合约束的半监督聚类算法HCSCAP,综合考虑了已标号点和成对点约束信息,使2类先验信息在聚类的过程中能发挥各自的作用.通过调整相似性矩阵添加成对点约束,已标号点以宏结点的方式添加到相似性矩阵.给出了具体的算法步骤并进行了测试,实验表明:HCSCAP比只利用成对点约束信息的SAP算法和只利用标号点的SS-CA... 相似文献
3.
聚类通常被认为是一种无监督的数据分析方法,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能。本文通过成对约束来调整点与点之间的相似矩阵,然后对其优化,并结合谱聚类算法,得到一种很有效的聚类算法——基于成对约束的半监督谱聚类算法(SSCA)。实验表明,该算法有很好的聚类效果。 相似文献
4.
5.
6.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率. 相似文献
7.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。 相似文献
8.
李小展 《东莞理工学院学报》2011,18(1):29-32
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献
9.
利用少量的标记数据和约束辅助聚类过程,提出一种基于半监督聚类的入侵检测模型.实验结果表明,与基于监督和非监督学习的入侵检测算法相比,基于半监督聚类的入侵检测算法可以更加有效地检测出未知攻击. 相似文献
10.
王开军 《福建师范大学学报(自然科学版)》2011,27(4):50-54,60
基于降维或映射技术的聚类结果可视化技术提供了在二维或三维空间直观地分析数据集的聚类结构、聚类质量和分布信息的有效手段.对线性降维可视化方法、非线性降维可视化方法及映射可视化方法等进行了介绍、实例展示和讨论分析,最后对这类方法的优缺点、存在的问题和进一步的研究方向做了总结和展望. 相似文献
11.
基于不完整信息的半监督聚类算法 总被引:1,自引:0,他引:1
聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析.重点研究半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果. 相似文献
12.
A clustering algorithm for semi-supervised affinity propagation based on layered combination is proposed in this paper in light of existing flaws. To improve accuracy of the algorithm,it introduces the idea of layered combination, divides an affinity propagation clustering( APC) process into several hierarchies evenly,draws samples from data of each hierarchy according to weight,and executes semi-supervised learning through construction of pairwise constraints and use of submanifold label mapping,weighting and combining clustering results of all hierarchies by combined promotion. It is shown by theoretical analysis and experimental result that clustering accuracy and computation complexity of the semi-supervised affinity propagation clustering algorithm based on layered combination( SAP-LC algorithm) have been greatly improved. 相似文献
13.
在互相关性未知的分布式融合系统中,协方差交集算法是一种有效的融合算法,但其在融合高维航迹时存在计算量大、精度低的问题,为此对高维航迹进行了降维处理,把高维航迹的融合变为多组二维航迹的融合,从而得到了一种降维的协方差交集算法(Dimensionality Reduction Intersection Algorithm,DRCI)。理论分析表明该算法能有效降低运算量,仿真实验结果表明,该算法的精度高于协方差交集算法(Covariance Intersection,CI),与Kalman融合算法处于同一水平。 相似文献
14.
核聚类算法是一种能够处理样本间差异微弱的有效聚类算法.以粗糙集理论为基础,将基于属性重要度的属性约简算法应用到核聚类算法中,提出一种新的聚类改进算法,由此可以得到高准确率低复杂度的良好结果.该算法在使用核函数对样本优化前,首先用基于属性重要度的约简算法对样本属性进行处理,同时引入信息熵来改进约简算法,从而删除冗余属性得... 相似文献
15.
赵宪佳 《青岛大学学报(自然科学版)》2010,23(3):42-46
首先将待测试的DNA序列片段利用词项-序列矩阵进行表示,然后通过奇异值分解进行降维,最后采用全局一致性和局部一致性兼顾的半监督聚类算法对长的DNA序列片段进行测试,并与现有的几种启动子识别算法的结果进行对比。 相似文献
16.
《漳州师范学院学报》2010,(4)
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法. 相似文献
17.
现有非线性维数约简算法均需要人工设定适当的邻域点数而(或者邻域半径ε)才能获得合理的嵌入结果.但常用的基于嵌入残差的邻域参数选择方法本质上是循环依赖的,不能有效工作.为实现非线性维数约简算法的定量评价的参数辨识,从讨论优化嵌入的基本判定原则出发,给出了基于空域互信息和正则依赖指数谱的优化嵌入判据实现嵌入质量的定量评价和非线性维数约简算法的非监督参数辨识.仿真实验表明,直观的嵌入质量可被优化嵌入判据有效反映,且由嵌入集拟合恢复原数据集时的拟合精度与优化嵌入判据之间存在显著的正相关. 相似文献
18.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。 相似文献
19.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果. 相似文献