首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 205 毫秒
1.
经典KNN算法在处理高维数据或样本数繁多的样本集时需要巨大的计算量,这使其在实际应用的过程中存在着一定的局限性;提出一种基于聚类和密度裁剪的改进KNN算法。在训练阶段,首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到若干个密度比较均匀的类簇并将其转化为超球。在测试阶段,采用两种方法,第一种是找出距离待测样本最近的k个超球,然后将这个k个超球内的训练样本作为新的训练样本集,在这个新的训练样本集上使用经典KNN算法得到待测样本的类别;第二种则是找出距离待测样本最近的1个超球,然后根据该超球的类别得出待测样本的类别。实验采用8个UCI样本集进行测试,实验结果表明,该算法同经典KNN相比具有良好的性能,是一种有效的分类方法。  相似文献   

2.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

3.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

4.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

5.
KNN是基于实例的算法,对于大规模样本算法分类性能不高.针对这一缺点,提出一种基于概率模型的学习矢量量化神经网络的改进KNN分类新方法.考虑到最优参考点训练的重要性,结合概率方法得到最佳参考点的判断准则函数,采用梯度下降最优化算法利用LVQ训练参考点的最佳位置.在对未知样本进行分类时选出样本x的K个近邻,采用"投票选举"机制最后判断样本x的所属类别.新方法减少KNN的计算复杂度和时间,弥补了KNN在处理大规模数据问题上的不足.在UCI中数据集上的仿真实验表明改进算法的可行性.  相似文献   

6.
基于两步策略的中文短文本分类研究   总被引:3,自引:0,他引:3  
为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能.  相似文献   

7.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

8.
针对现有KNN算法识别率低的问题,提出了一种并行权重自适应k-邻域算法。该方法首先结合多线程技术,并采用分类组合的多个KNN单元进行识别以提高执行效率;其次在分类组合KNN算法中采用深度学习模型对各个类别进行了系数权重自适应设定,进而降低传统KNN和分类组合KNN,由于单纯类别个数的多少进行决策或者通过人为设定类别比例进行决策而引起的分类误差。通过在Fashion MNIST手写数据集进行实验,结果表明:该算法将传统的KNN算法分类正确率提高到97%左右,对实际应用具有一定的价值。  相似文献   

9.
大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。  相似文献   

10.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

11.
提出了一种新的异常行为检测方法,将SVM算法和KNN算法结合,在对识别样本判别时,当其与最优分类面的距离大于给定阈值时,采用SVM分类算法,否则采用KNN算法,从而减少了SVM算法的错误率。实验结果表明,SVM-KNN算法对异常行为检测的准确率达到95.86%。  相似文献   

12.
一种基于特征加权的K Nearest Neighbor算法   总被引:1,自引:0,他引:1  
传统的KNN算法一般采用欧式距离公式度量两样本间的距离.由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式.笔者提出一种计算权重的方法,即基于特征加权KNN算法.经实验证明,该算法与经典的赋权算法相比具有较好的分类效果.  相似文献   

13.
阐述了注入式攻击及KNN算法的相关概念并探讨了注入式攻击行为检测与文本分类技术的关系.结合KNN算法的优点及注入式攻击行为检测与文本分类的相似性,提出了Web日志中基于KNN算法的注入式攻击检测方法,给出了其计算模型,并进行了检测对此.结果表明,该方法具有良好的检测准确度.  相似文献   

14.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

15.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

16.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

17.
李秀娟 《科技信息》2009,(31):81-81,383
KNN算法是应用最广泛的分类技术之一。文章简要介绍了KNN算法的基本原理,重点论述了研究人员针对KNN算法的不足所做的各种改进。主要从距离计算的改进、降低计算复杂度、K值的选择、与其它方法集成几个方面进行分析研究。  相似文献   

18.
为解决算法生成纹理地图时时间耗费量大的问题,提出采用KD-tree算法对数据结构进行划分、减小KNN算法搜索复杂度、提高搜索速度的方法.针对基于纹理基元的分类算法无法准确检测室外某些纹理相似性较高的自然场景,提出加入颜色特征、设置相应权值构建混合模型的方法.实验结果表明,基于KD-tree的KNN算法可缩短分类时间、满足实时性的要求,基于纹理基元与颜色的分类算法在室外自然场景中能够获得较高的分类精确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号