首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
KNN算法综述   总被引:2,自引:0,他引:2  
KNN(K最近邻)分类算法是应用最为广泛的分类算法。本文介绍传统的KNN方法的基础上,根据其不足,从降低计算复杂度提高算法的执行效率,相似度度量方法,决策规则等几方面综述KNN改进算法。  相似文献   

2.
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个方面得到了有效提高。  相似文献   

3.
李秀娟 《科技信息》2009,(31):81-81,383
KNN算法是应用最广泛的分类技术之一。文章简要介绍了KNN算法的基本原理,重点论述了研究人员针对KNN算法的不足所做的各种改进。主要从距离计算的改进、降低计算复杂度、K值的选择、与其它方法集成几个方面进行分析研究。  相似文献   

4.
【目的】针对K最近邻(K-Nearest Neighbor,KNN)算法中k值的选取通常是人为设定,而且通常是固定的缺点,研究如何更好地选取k值。【方法】引入k的可信度的概念,提出一种基于局部密度和纯度的自适应选取k值的方法,并将其引入到传统的KNN分类算法中。【结果】该算法合理的考虑了样本的局部密度、纯度与选取k值的关系,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。【结论】该算法是有效的,可以得到较高的准确率,但算法的时效性有待提高。  相似文献   

5.
K-最近邻的改进及其在文本分类中的应用   总被引:4,自引:0,他引:4  
采用K近邻算法(Knearest neighbors,简称KNN)进行分类时,如果训练样本数量太大,那么搜索测试样本的K个最近邻时,算法的计算量很大.本文针对KNN的不足提出了一种改进方法.改进的KNN算法通过定义样本的延拓类和延拓能力,保留延拓能力强的样本作为它延拓类中其它训练样本的代表,来缩减训练样本数量,达到减少算法计算量的目的.实验证明,改进的KNN算法具有很好的性能.  相似文献   

6.
针对传统K最近邻(KNN)分类法执行效率低的问题,提出一种改进的K最近邻分类法。先采用最短距离聚类法分别对训练样本和测试样本进行聚类,生成一些小簇和孤立点,再对小簇或孤立点使用改进的K最近邻方法进行分类。改进后的方法能极大地缩小分类样本的规模,降低计算成本,提高分类效率。  相似文献   

7.
KNN是基于实例的算法,对于大规模样本算法分类性能不高.针对这一缺点,提出一种基于概率模型的学习矢量量化神经网络的改进KNN分类新方法.考虑到最优参考点训练的重要性,结合概率方法得到最佳参考点的判断准则函数,采用梯度下降最优化算法利用LVQ训练参考点的最佳位置.在对未知样本进行分类时选出样本x的K个近邻,采用"投票选举"机制最后判断样本x的所属类别.新方法减少KNN的计算复杂度和时间,弥补了KNN在处理大规模数据问题上的不足.在UCI中数据集上的仿真实验表明改进算法的可行性.  相似文献   

8.
研讨了数据挖掘中K-means聚类算法,在继承经典K-means算法的优点和基于最大最小距离的方法基础上实现了算法的改进,改进后的算法可根据欧氏距离度量的方法自动确定聚类中心个数K值,并能够识别数据对象中存在的孤立点和噪声,经过实验证明改进后的算法在执行效率、稳定性和K值确定方面都优于K-means算法.  相似文献   

9.
针对数据预处理中的遗失值填充问题,运用策略模式设计了一种可扩展的遗失值填充算法;构造了SimpleImputation,KNNImputation和DTBImputation 3个具体的策略类,分别封装了简单遗失值填充算法、KNN遗失值填充算法以及DTB遗失值填充算法.实验结果表明:简单填充算法执行速度最快但精度最低,DTB算法执行速度较慢但精度较高,KNN算法执行速度最慢但精度最高.该算法允许用户根据自身对速度和精度的需求来选取相应的填充算法,并通过添加新策略类的方式来扩展其遗失值填充功能,从而解决了遗失值造成的数据质量问题,提高了数据预处理程序的通用性和可扩展性.  相似文献   

10.
针对传统K近邻法的缺陷,改进的K近邻法首先对训练样本进行聚类,将样本的特征空间划分成若干满足一定条件的小超球体,然后依据最近间隔值在这些小超球体内搜索待分类样本的K个近邻点.算法通过特征选取,选出反映样本模式重要信息的特征,从而确保了聚类的质量.同时K近邻算法中引入的最近间隔值,既确定了近邻点的搜索半径,又保障了搜索的准确性.通过实验证实,该方法不但节省时间,还有较高的识别率.  相似文献   

11.
针对KNN的K值难以确定的问题,提出一种基于并行遗传算法的KNN分类方法.该方法采用粗粒度模型的并行遗传算法进行设计,通过种群内的遗传、变异和种群间的并行进化、联姻得到优化的K值和分类结果.实验结果表明,该方法有效的提高了KNN算法的分类效果,是一种精确高效的分类方法.  相似文献   

12.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

13.
为了解决基于KNN(K-Nearest Neighbors)算法的非参数回归短时交通状态预测模型执行效率低的问题,提出了KNN算法的数据优化策略。通过对交通状态时空特性的研究,采用层次化对象构造交通状态向量,并根据交通状态的自重复性对历史样本数据库进行数据压缩。实验证明,优化策略提高了KNN算法的执行效率,经过压缩后的数据存取时间比压缩前缩短了8.66%。  相似文献   

14.
针对K近邻方法分类准确率较高的特性,提出了一种基于相似度判据的K近邻分类器车牌字符识别方法.通过大量实验,选取字符的网格特征和轮廓特征作为分类依据,用特征融合方法将两种特征合并,实现特征的串行融合.根据相似度判据作K近邻分类,实现了一个车牌字符识别系统.实验表明,这种方法具有良好的识别效果,鲁棒性强,具有较大的实用价值.  相似文献   

15.
一种基于特征加权的K Nearest Neighbor算法   总被引:1,自引:0,他引:1  
传统的KNN算法一般采用欧式距离公式度量两样本间的距离.由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式.笔者提出一种计算权重的方法,即基于特征加权KNN算法.经实验证明,该算法与经典的赋权算法相比具有较好的分类效果.  相似文献   

16.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

17.
为解决算法生成纹理地图时时间耗费量大的问题,提出采用KD-tree算法对数据结构进行划分、减小KNN算法搜索复杂度、提高搜索速度的方法.针对基于纹理基元的分类算法无法准确检测室外某些纹理相似性较高的自然场景,提出加入颜色特征、设置相应权值构建混合模型的方法.实验结果表明,基于KD-tree的KNN算法可缩短分类时间、满足实时性的要求,基于纹理基元与颜色的分类算法在室外自然场景中能够获得较高的分类精确度.  相似文献   

18.
准确的高速公路短时交通流预测是实现交通诱导和控制的重要前提和基础。为了提高预测精度,提出一种基于流形距离(MD)的K近邻-长短期记忆(K-nearest neighbor-long short-term memory,KNN-LSTM)高速公路短时交通流预测模型。该模型利用流形相似性分析高速公路交通流的时空特性,计算多站点与目标站点之间的流形距离。然后,采用改进的KNN算法筛选出空间相关站点构造交通流数据集,通过LSTM模型提取时序特征得出预测结果。实验表明,与单一预测模型相比,该方法能更好地提取交通流时空特性且预测精度更高,可为高速公路的交通管理提供必要的依据。  相似文献   

19.
乡村振兴背景下,乡村居民出行需求和乡村路网布局理论建设极为重要。为了提高乡村路网效率,设计基于拓扑理论的乡村路网布局算法。该方法考虑径向网络的拓扑结构,并计算了城乡交通的特征。根据特征计算结果,采用灰度相关分析方法计算了交通节点重要性指标的目标权值。结合交通节点的动态聚类结果,构建乡村道路布局规划模型,并以出行时间为目标求解该模型,完成布局规划算法的设计。结果表明,该算法在提高效率的基础上,较传统的样条法和GIS-TransCAD法,能够有效地改善城乡道路分布的平衡性和连通性。  相似文献   

20.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号