首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

2.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

3.
大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。  相似文献   

4.
KNN是基于实例的算法,对于大规模样本算法分类性能不高.针对这一缺点,提出一种基于概率模型的学习矢量量化神经网络的改进KNN分类新方法.考虑到最优参考点训练的重要性,结合概率方法得到最佳参考点的判断准则函数,采用梯度下降最优化算法利用LVQ训练参考点的最佳位置.在对未知样本进行分类时选出样本x的K个近邻,采用"投票选举"机制最后判断样本x的所属类别.新方法减少KNN的计算复杂度和时间,弥补了KNN在处理大规模数据问题上的不足.在UCI中数据集上的仿真实验表明改进算法的可行性.  相似文献   

5.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

6.
针对现有KNN算法识别率低的问题,提出了一种并行权重自适应k-邻域算法。该方法首先结合多线程技术,并采用分类组合的多个KNN单元进行识别以提高执行效率;其次在分类组合KNN算法中采用深度学习模型对各个类别进行了系数权重自适应设定,进而降低传统KNN和分类组合KNN,由于单纯类别个数的多少进行决策或者通过人为设定类别比例进行决策而引起的分类误差。通过在Fashion MNIST手写数据集进行实验,结果表明:该算法将传统的KNN算法分类正确率提高到97%左右,对实际应用具有一定的价值。  相似文献   

7.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

8.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

9.
将文本分类理论应用于哈萨克语中,给出了哈萨克语文本预处理过程.介绍一种改进的KNN算法,并结合自己构建的哈萨克语料集实现基于改进KNN算法的哈萨克语的文本分类.仿真实验数据表明,该方法在哈萨克语的文本分类上获得了较好的效果.  相似文献   

10.
针对面向分类去噪问题,提出了一种新的模糊支持向量机算法(ν-FSVM),并给出了通过无穷次连续可微函数建立模糊关系的方法.该方法能对训练集中的点自动赋予模糊关系,并且对带有噪声的点和孤立的点赋予较小的模糊关系.与传统的ν支持向量机比较,该算法通过建立训练集的模糊关系,能够大大减小噪声对分类的影响,从而提高分类精度,减少误差.  相似文献   

11.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

12.
粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具。在数据挖掘技术中KNN算法是一个实现简单和分类准确性较高的方法,但是,当用于样本容量较大以及特征属性较多的类似医疗图像挖掘这样的领域时,其效率受到了很大的影响,找到一个删除最大冗余属性的方法成了解决这个问题的关键。将粗糙集理论与KNN算法结合起来,用粗糙集方法进行属性约简,有效地解决了KNN算法分类的这个缺点。  相似文献   

13.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

14.
The trained Gaussian mixture model is used to make skincolour segmentation for the input image sequences. The hand gesture region is extracted, and the relative normalization images are obtained by interpolation operation. To solve the proem of hand gesture recognition, Fuzzy-Rough based nearest neighbour(RNN) algorithm is applied for classification. For avoiding the costly compute, an improved nearest neighbour classification algorithm based on fuzzy-rough set theory (FRNNC) is proposed. The algorithm employs the represented cluster points instead of the whole training samples, and takes the hand gesture data's fuzziness and the roughness into account, so the campute spending is decreased and the recognition rate is increased. The 30 gestures in Chinese sign language alphabet are used for approving the effectiveness of the proposed algorithm. The recognition rate is 94.96%, which is better than that of KNN (K nearest neighbor)and Fuzzy- KNN (Fuzzy K nearest neighbor).  相似文献   

15.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

16.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

17.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

18.
聚类算法是数据挖掘算法中的重要方法之一。本文在分析了FCM算法和基于遗传聚类算法的不足基础上,提出了一种基于免疫单亲遗传和模糊C均值的混合聚类算法,克服了FCM的局部最优问题以及普通遗传算法聚类时的搜索速度和聚类精度的矛盾,实验表明该算法是有效的。  相似文献   

19.
苟和平 《科学技术与工程》2012,12(20):4926-4929
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。  相似文献   

20.
针对传统文本分类算法的分类精度低和计算复杂度高的问题,提出一种基于加权频繁子图挖掘的图模型文本分类算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征向量进行分类。提出的算法仅提取最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号