首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 449 毫秒
1.
基于小波聚类的数据集简化算法研究   总被引:1,自引:0,他引:1  
大数据集没有非常有效的简化方法。提出一种基于小波聚类的数据预处理的算法DPWaveCluster,该算法包括量化特征空间、小波变换、聚类、形成查找表、映射数据点到聚类,以及按要求在聚类标识周围选取适当数据点形成简化数据集等操作步骤。利用小波变换的多分辨分析特性获得无监督聚类来帮助简化数据集。通过synthetic_dat和topo标准数据集的仿真实验表明,该算法实现简化大数据集高效而适用。  相似文献   

2.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

3.
特征选择是机器学习和模式识别领域中的一个重要问题.本文提出一种非监督的特征选择算法,称为基于密度聚类和样本加权信息熵的特征选择算法(DCWIE).不同于传统的基于信息熵的特征选择算法,DCWIE使用一种加权的信息熵计算方法,增加对分类贡献大的样本的权值,并通过与聚类结合,实现无监督学习.实验结果表明了本文算法的有效性.  相似文献   

4.
行人重识别任务旨在跨相机下检索出特定的行人图像.虽然行人重识别任务得到了快速发展,在检索精度上得到很大的提升,但是依然面临着行人重识别模型在新的数据集上泛化能力有限,以及在无监督领域自适应任务中无法避免的伪标签噪声的问题.针对目前无监督领域自适应任务中由于聚类算法的局限性而导致伪标签出现噪声的问题,提出一种基于多度量融合的无监督领域自适应行人重识别算法.具体而言,多度量融合算法是在目标域上使用DBSCAN(density-based spatial clustering of applications with noise)聚类算法对特征空间的行人特征进行聚类时,通过多个特征相似度度量函数线性加权的方式,计算行人之间的特征相似度,从而在目标域上生成更为准确的伪标签,之后利用该伪标签微调模型.通过在Market1501→DukeMTMC-reID和DukeMTMC-reID→Market1501上大量的实验,证明多度量融合算法有效提升了行人重识别模型在无监督领域自适应任务上的检索精度.  相似文献   

5.
针对网络入侵检测系统中的一般聚类算法速度较慢和精度较低的问题,提出了一种基于简化群优化的最优路径森林聚类算法(SSO-OFC).首先,将数据集解析为图,将其节点作为样本;然后,将每个样本连接到其给定特征空间中的k-近邻,图的节点由它们的概率密度函数(pdf)值加权得到;最后,通过样本及k-近邻之间的距离计算得到pdf值.提出的算法主要贡献是快速估计最佳k值,并将最优路径森林聚类应用于网络入侵检测.在5个公开的数据集上进行实验.结果表明,SSO-OFC的精度非常稳定,除了KddCup数据集,其他数据集上的精度都在95%以上,相比基于数据聚类的SSO和自组织映射更加稳定有效.  相似文献   

6.
基于核的自组织映射聚类   总被引:1,自引:0,他引:1  
将核学习的方法应用于自组织映射聚类中,提出了一种核自组织映射聚类算法.该算法以核函数代替原始数据在特征空间中映射值的内积,并且神经元权值向量的初始化和更新都可由其组合系数向量表示,从而获得了直观而简单的迭代公式.分析了算法中学习速率过高会降低学习稳定性、学习速率过低又会降低收敛速度等参数选择问题,给出了一组折中考虑学习稳定性和收敛速度要求的参数初始值.实验结果表明,核自组织映射聚类对于非椭圆型的类分布数据,如环形数据,聚类正确率也能够达到99.886 4%.对IRIS数据集和入侵检测报警数据的聚类也证明了核自组织映射聚类方法的良好性能.  相似文献   

7.
一种广义加权模糊聚类算法   总被引:2,自引:0,他引:2  
提出了一种广义的加权模糊聚类新算法来处理具有不同特征贡献和不同数据分布的混合属性数据.分别利用样本概率密度思想和ReliefF算法为每一个样本和每一维特征分配权值,通过样本和特征的加权,将模糊c均值算法、模糊c-modes算法、模糊c-原型算法以及样本加权聚类算法统一为一个通用的框架.不同测试数据集的实验结果证明,这种广义的模糊聚类新算法对于处理不同分布以及具有不同特征贡献的大数据集是相当有效的.  相似文献   

8.
特征选择是从特征集合中选择相关特征子集,方便数据聚类、分类和检索等.现有的无监督特征选择算法是将高维数据映射到低维空间并计算每个特征的得分,选择排名靠前的特征.提出一种基于稀疏聚类的无监督特征选择算法:首先利用流形学习的特征映射思想将高维空间的数据映射到低维空间中,用样本构造近邻图,通过图的嵌入找到低维空间,降维后的空间能保持原始数据集的流形结构.其次,得到的样本嵌入矩阵表示特征的重要性,是区分特征对每一个聚类簇的贡献大小的指标,利用低维空间对高维空间的拟合,构造一个目标函数.最后,目标函数本质是回归问题,求解回归优化问题常用最小角回归算法,使用L_1范数进行稀疏回归计算每个特征的得分,选出得分靠前的特征.在六个现实数据集上的实验结果表明:该算法在聚类精度和互信息上取得了较好的实验结果,能有效地选出重要特征,在降维方面具有良好性能,优于其他对比算法.  相似文献   

9.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

10.
一种基于核的模糊聚类算法   总被引:6,自引:2,他引:4  
结合核技术与改进的模糊c均值算法聚类准则提出一 种基于核的模糊聚类算法. 通过引入核函数, 样本点被非线性变换映射到高维特征空间进行聚类, 提高了聚类性能. 同时, 算法改进了模糊c-均值聚类模型中的概率型约束条件, 使其对噪声和野值点具有较好的鲁棒性. 在真实数据和人造数据上与常用聚类算法进行了对比实验, 结果表明该算法具有较低的时间、 空间复杂度与较好的聚类性能.  相似文献   

11.
针对基于流形正则化自表示(MRSR)的无监督特征选择算法直接从原始的样本空间构造相似矩阵可能会 导致重构空间中样本的相似性描述得不够准确的问题,提出了基于自适应流形正则化自表示的无监督特征选择 (AMRSR)算法。 基于自适应流形正则化自表示的无监督特征选择算法在 MRSR 算法的基础上通过对相似矩阵施 加概率最近邻约束将相似矩阵的学习嵌入到优化过程中,在重构空间中自适应地学习样本的相似性,使得在每一 次迭代中获取更加精确的样本局部几何流形结构,从而选择具有代表性且保持局部几何流形结构的特征。 最后, 在四个公开数据集上进行了大量的对比实验,通过将算法的特征选择结果用于 K-means 聚类并采取两种常见的聚 类评价指标:聚类精确度和归一化互信息评价聚类效果。 实验结果表明,AMRSR 算法与现有的一些算法相比有更 高的聚类精确度和归一化互信息,进一步表明该算法特征选择效果更好。  相似文献   

12.
一种改进的SOFM聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对常规SOFM(self-organizing feature map)无监督的神经网络,提出了一种改进的自组织特征映射SOFM神经网络算法。在常规SOFM网络数据聚类算法基础上,分析了其在实际应用中存在的不足,对初始权值设定以及邻域范围选择等方面进行了算法的优化和改进,进而提高了SOFM神经网络聚类算法的正确率、收敛速度和实时性,并利用仿真实验进一步对提出的改进算法进行了验证。  相似文献   

13.
无监督极限学习机在投影过程中保持原始高维空间中的稀疏或近邻结构,样本在高维空间中存在冗余信息,原始的数据结构不一定适应于投影后的低维特征空间.为此,结合无监督极限学习机和子空间聚类的自表示学习,提出投影自表示无监督极限学习机模型.该模型是面向聚类的特征提取方法,在投影过程中学习自表示子空间结构,从而使无监督极限学习机提取的特征自适应于聚类任务.在IRIS数据集、 6个基因表达和2个医学影像高维数据集上进行实验,结果表明该模型和算法是有效的.  相似文献   

14.
文章提出了一种储产层识别及预测方法,该方法利用了神经网络中的自组织特征映射网络,它是由无人管理训练而得到的。当该网络被用作储产层的模式分类器时,它需要进行有导师指导的训练,这个模型就变为储产层的模式分类器。  相似文献   

15.
16.
17.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

18.
平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。  相似文献   

19.
基于主成分分析的特征简化   总被引:4,自引:0,他引:4  
特征评选与简化是模式识别研究中至关重要的任务。本文介绍了降维映射的主成分分析特征评选与简化方法,提出了以神经网络实现主成分分析的结构和算法,为模式识别特征简化提供了一条有效途径。  相似文献   

20.
针对交通监控图像识别精度较差的问题,设计一种基于径向基(radial-basis)函数神经网络的图像分类器.该分类器利用Zernike矩噪声敏感度较小、形状特征稳定性好的特点,构建四阶矩的特征向量,用于特征提取;利用自适应模糊聚类方法,解决径向基函数神经网络隐层节点数不确定的问题.仿真分析表明,该分类器与基于改进的快速模糊C均值聚类算法的Back Propagation网络分类器和径向基函数神经网络分类器相比具有更高的识别率,与改进的粒子群优化模糊C均值聚类算法的径向基函数神经网络分类器相比具有相近的识别率,但其计算复杂度较低.仿真实验结果表明,该方法具有较好的分类能力及较高的计算效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号