首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

2.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

3.
提出一种基于C-均值聚类的二层次人像聚类算法,解决了传统硬聚类中由于每个数据只能属于某一类而使得处于类边界的数据在检索时结果准确度不高, 以及对高维大数据量数据分类时存在的模糊聚类时间和空间复杂性过大等问题. 该算法为大规模人像数据库检索提供了一种可行的分类方法, 使得分类后的人像数据在有效提高检索速度的同时保证了检索的准确度.  相似文献   

4.
相比于人脸识别,表情识别是更细粒度的图像分类,不同表情之间的差异非常细微,一般的聚类算法难以处理面部表情数据的分类问题。本文提出了一种基于卷积神经网络的Expression-EigenFace特征聚类算法,对数据集样本进行预处理,通过人脸检测和定位技术,将人脸分割重组形成情绪特征脸;将处理后的特征脸送入预训练好的卷积网络进行提取特征;通过聚类算法对所提取的特征进行聚类,完成人脸面部表情聚类的过程。实验结果表明:相比没有经过任何处理的表情图像聚类,本文方法在调整兰德系数(adjusted rand index, ARI)、调整互信息(adjusted mutual information, AMI)和标准化互信息(normalized mutual information, NMI)这几个聚类评估指标上都有大幅提升,证明了所提出的特征脸聚类算法的有效性。  相似文献   

5.
针对传统聚类算法存在挖掘效率慢、 准确率低等问题, 提出一种基于最小生成树的多层次k-means聚类算法, 并应用于数据挖掘中. 先分析聚类样本的数据类型, 根据分析结果设计聚类准则函数; 再通过最小生成树对样本数据进行划分, 并选取初始聚类中心, 将样本的数据空间划分为矩形单元, 在矩形单元中对样本对象数据进行计算、 降序和选取, 得到有效的初始聚类中心, 减少数据挖掘时间. 实验结果表明, 与传统算法相比, 该算法可快速、 准确地挖掘数据, 且挖掘效率提升约50%.  相似文献   

6.
【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。  相似文献   

7.
聚类分析是依据样本间关联的量度标准将其自动分成几个群组,使同一群组内的样本相似,而属于不同群组的样本相异的一种方法.在微粒群算法中由数量不等的粒子根据规则组合成不同的群体,所有的群体最终将会向着一个全局最优的位置运动.本文将通过改进微粒群算法的局部更新规则来改善算法的性能,根据由聚类半径确定初始聚类中心的方法将粒子群进行分类,然后运用该方法对所有粒子进行分类,初始化得到不同的粒子群体,最后对整个粒子群体进行优化得到全局最优解.  相似文献   

8.
聚类分析是模式识别的一个重要分支,以核心点和k-均值算法为基础,提出了一种基于参考点的快速k-均值算法;本算法以参考点作为第一个初始聚类中心,剩余初始聚类中心在核心点中选取,使得初始聚类中心能更好的反映模式样本集的几何特征,并且能减少迭代次数.  相似文献   

9.
针对传统有监督分类方法卷积神经网络(CNN)在有标签样本数较少时正确率偏低的缺点,提出一种结合聚类的半监督分类方法。该方法利用传统无监督聚类方法 K-means对卷积神经网络提取到的样本特征进行聚类并标记,扩充有标签样本数量,使得最终训练得到的卷积神经网络能够更好地进行分类。利用该方法在MNIST手写数据集上进行三组实验,实验结果显示,与K-means和卷积神经网络相比,本方法整体结构简单,便于实现,具有较高的分类准确率。  相似文献   

10.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

11.
PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的PU学习方法:先对正例无标记样本集进行半监督聚类,选出靠近正例样本的低模糊度数据来扩充初始正例集,并选择远离正例样本的低模糊度数据作为可靠负例;再剪辑掉无标记样本中高模糊度数据;最后在扩充后的正例样本集和可靠负例集上训练分类器,对初始无标记样本集进行分类.在标准数据集上的对比实验证实了提出算法的有效性.  相似文献   

12.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

13.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

14.
基于聚类分析和支持向量机的布匹瑕疵分类方法   总被引:2,自引:0,他引:2  
提出一种基于聚类分析和支持向量机(SVM)的布匹瑕疵分类方法.该方法充分利用瑕疵的几何特征,首先使用迭代自组织数据分析技术算法(ISODATA)对其进行聚类,在聚类形成的子空间内再根据瑕疵的纹理特征利用SVM进行分类.根据布匹瑕疵的特点提出一种新的几何特征,并使用各类瑕疵的几何特征均值作为初始聚类中心,提高ISODATA算法的聚类效果.实验表明,该方法有效地提高了分类准确性,降低了训练的复杂度,分类准确率可达90%.  相似文献   

15.
针对传统K最近邻(KNN)分类法执行效率低的问题,提出一种改进的K最近邻分类法。先采用最短距离聚类法分别对训练样本和测试样本进行聚类,生成一些小簇和孤立点,再对小簇或孤立点使用改进的K最近邻方法进行分类。改进后的方法能极大地缩小分类样本的规模,降低计算成本,提高分类效率。  相似文献   

16.
针对云分类问题提出一种新的云团分类方法.该方法先利用风云二号静止气象卫星实时云图图像资料建立多种云和地表类型的样本库,提取分析已知样本的光谱特征和纹理特征;再使用中值滤波器对云图进行预处理,并采用具有噪声的基于密度的聚类算法对云区聚类;最后对聚类得到的云团光谱特征和纹理特征进行匹配,确定云团所属的云类别.实验结果表明,该方法以云团为单位进行划分,易实现云团分类自动化.  相似文献   

17.
基于文本最小相似度的中心选取方法   总被引:1,自引:0,他引:1  
基于划分的聚类算法是一种局部最优算法.聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响.初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心.实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高.  相似文献   

18.
海量和高维大数据集的聚类对计算机性能提出了很高的要求.基于具有层次聚类特性的RSOM树方法提供了一种有效的手段以实现对高维大数据集的聚类索引,这种RSOM树可支持最近邻搜索且不需要对数据进行线性搜索.注意到RSOM模型具有内在的层次化、分布式结构特点,并可进行增量的训练,研究了基于高效并行集群的增量、分布式RSOM并行算法,并通过视频图像特征集实例证实了算法的可行性.  相似文献   

19.
王芳  邵凯 《科技资讯》2007,(35):157-157
聚类分析是数据挖掘方面重要的研究领域.K均值聚类分析将样本分成指定的几类,并且这几类的特征目前是不知道的.K-均值聚类方法是一种简单、快速和有效的聚类方法.本文用K-均值聚类方法对各国按饮食构成进行分类.  相似文献   

20.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法   总被引:1,自引:0,他引:1  
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号