首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
【目的】针对K最近邻(K-Nearest Neighbor,KNN)算法中k值的选取通常是人为设定,而且通常是固定的缺点,研究如何更好地选取k值。【方法】引入k的可信度的概念,提出一种基于局部密度和纯度的自适应选取k值的方法,并将其引入到传统的KNN分类算法中。【结果】该算法合理的考虑了样本的局部密度、纯度与选取k值的关系,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。【结论】该算法是有效的,可以得到较高的准确率,但算法的时效性有待提高。  相似文献   

2.
传统的KNN缺失值填充算法存在没有利用样本间属性的相关性,也没有考虑到保持样本数据本身的结构和去除噪声样本的问题。本文提出利用训练样本重构测试样本从而进行最近邻缺失值填充的方法,该方法重构过程充分利用样本间的相关性,也用到LPP(保局投影)保持数据结构在重构过程中不变,同时引入l2,1范式用于去除噪声样本。在UCI数据集上的仿真实验结果表明,该方法比传统的KNN填充算法以及基于属性信息熵的Entropy-KNN算法有更高的预测准确度。  相似文献   

3.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

4.
在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样本重构测试样本,其中,l_1-范数导致的稀疏性用来对每个测试样本用不同数目的训练样本进行分类,这解决了kNN算法固定k值问题;l_(21)-范数产生的整行稀疏用来去除噪声样本。在UCI数据集上进行实验,本文使用的新算法比原来的kNN分类算法能取得更好的分类效果。  相似文献   

5.
两层最近邻(TLNN)分类算法通过在有限训练样本条件下最小化错误率的平均绝对误差,能够产生比k-最近邻(kNN)算法更好的分类结果,但其精度易受噪声影响。针对这个问题,提出一种基于最佳距离度量的两层最近邻分类算法(ODM-TLNN),提高对噪声数据的鲁棒性。算法分为两层,下层使用最佳距离度量来确定一个未标记样本的局部子空间,上层采用AdaBoost在子空间进行信息提取。基于UCI数据集的实验结果表明,该算法能充分降低分类错误率,并且在噪声数据下具有较好的稳定性。  相似文献   

6.
用于文本分类的快速KNN算法   总被引:1,自引:0,他引:1  
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.  相似文献   

7.
【目的】局部保持投影(LPP)是一种经典的非线性数据降维方法。在LPP方法基础上人们提出了判别局部保持投影方法(DLPP),并取得了良好的效果,但DLPP方法存在小样本问题,针对该问题提出了广义矩阵指数判别局部保持投影(GEDLPP)算法。【方法】基于矩阵函数的性质,使用广义矩阵指数函数来重构DLPP,即为GEDLPP算法。【结果】提出的算法有两个优点:一是解决了DLPP方法的小样本问题;二是GEDLPP所隐含的非线性映射拉伸了不同类别样本之间的距离,从而提高了模式分类的能力。【结论】在COIL-20数据库,Yale,ExtendedYaleB和CMU-PIE人脸数据集上的实验结果表明:与最近提出的解决DLPP小样本问题的改进方法相比,GEDLPP的识别率优于其他方法。  相似文献   

8.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

9.
针对无数据标签的群数据异常检测问题,提出在无监督模式下利用k最近邻(kNN)算法检测群数据异常.为减少由于异常值与正常值之间相互干扰而产生的漏报和误报,提出用反向k近邻(RkNN)算法对异常群数据进行反向过滤.反向k近邻算法首先将统计距离作为不同群数据间的相似性度量,再用kNN算法求得每个集群的异常得分,并获得初始异常,最后使用RkNN算法对初始异常进行过滤.实验结果证明,所提算法能有效减少漏报和误报,且具有较高的异常检测率和良好的稳定性.  相似文献   

10.
社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用。因此,该文提出了一种结合支持向量机与k近邻模型(pSVM-kNN)的半监督话题噪声过滤方法。该方法融合了SVM和kNN算法,在SVM计算得到超平面的基础上使用kNN算法在局部范围内迭代寻找分类超平面的最优解;同时为减少误分类发生,分别在SVM和kNN阶段引入惩罚代价和比例权重,以提高噪声过滤的效果。通过选取新浪微博中不同大小的数据集进行实验与其他方法进行比较,结果表明:该方法只利用了少量的标注样本进行训练,在准确率、召回率和F值方面均优于其他的对比方法。  相似文献   

11.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

12.
为了保持手背静脉空间的局部结构,运用局部保持投影(LPP)方法进行手背静脉识别.但是对于小样本图像识别,LPP中的特征方程矩阵通常存在奇异性.为了解决这个问题,提出首先利用核主元分析(KPCA)降低手背静脉空间的维数,再对低维图像应用LPP提取局部特征.对已有手背静脉图像库进行测试,实验结果表明,与传统的PCA和PCA+LPP相比,该方法大大提高了系统的识别率,而且特征提取时间为2.6 s,满足实时系统的要求.  相似文献   

13.
针对局部保持投影算法的无监督性质和参数选择复杂性问题,结合线性鉴别分析算法,提出一种改进的有监督无参数局部保持投影算法(Linear Discriminant Supervised Parameter-free Locality Preserving Projection algorithm,LD-SPLPP). LD-SPLPP算法采用监督模式并使用广义Dice系数的方法构建近邻矩阵,有效避免LPP(Locality Preserving Projection)算法参数选择调整的问题.新算法在UCI的八个低维度数据集和两个高维度人脸数据库上进行了实验,通过对数据的特征提取,采用最近邻分类法统计识别率,并分析了实验分类后的数据值与算法性能的关系.上述实验过程中,将新算法与PCA,LDA,ULDA,OLDA,LPP,SPLPP,PSKLPP,PSLMM和EP-SLPP算法进行了对比,实验结果证明了LD-SPLPP在数据降维和特征提取方面的有效性.  相似文献   

14.
kNN算法在文本分类中的改进   总被引:4,自引:0,他引:4  
kNN算法用已归类的数据训练分类器,它是一种基于实例研究(instance_based learning)文本分类算法,本文在研究kNN算法的基础上,结合k邻近法和最近特征线法的思想,提出了新的分类方法,k最近特征线法(k nearest feature line,kNFL),将其运用于文本分类中,汲取了kNN算法和NFL算法的优点,降低了偶然误差,提高了算法适应性和分类精度。  相似文献   

15.
提出一种最近邻分类的改良模型,综合考虑待分类数据的k近邻、所属的簇和整个训练数据集的类分布,充分利用局部、部分和全局三种类分布信息,从而具有抗噪声的性能.实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的kNN分类算法.  相似文献   

16.
QENNI:一种缺失值填充的新方法   总被引:1,自引:0,他引:1  
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。另外,此算法对于低维数据集可以是无参的,即消除了对参数的依赖。实验结果表明,QENNI算法的填充准确性要优于kNNI算法。  相似文献   

17.
蔡贺  张睿 《甘肃科技》2012,28(18):15-16
从介绍和分析k最近邻域分类算法入手,对该算法进行了分析与研究,剖析了kNN分类算法中的关键问题,为读者呈现了分类效果,并指出了该算法存在的问题以及解决方法,并对算法未来的发展进行了展望。  相似文献   

18.
为克服线性判别分析(LDA)只能利用有标记样本的缺点,提出一种基于局部重构与全局保持的半监督判别分析(LRGPSSDA)方法.LRGPSSDA通过最小化局部重构误差来确定邻域图的边权值,在保持数据集局部结构的同时保持其全局结构,具有对邻域参数的选择不敏感、所得投影子空间的维数不受样本类别数的限制等特点.相较现有的半监督判别分析方法(如SDA和UDA),LRGPSSDA的分类性能更好.在YaleB和CMUPIE标准人脸库上的实验结果验证了该算法的有效性.  相似文献   

19.
提出判别字典学习来获取线性子空间方法,以减弱光照等噪声对子空间人脸特征提取的影响,从而在保证稀疏系数的局部结构性同时保持字典的判别性.首先,训练与语意相关的结构字典,并在破坏非同类语意样本间局部结构稀疏性的同时,增强同类语意样本间局部结构的稀疏性;其次,利用最大间隔准则(MMC)在重构后稀疏易分的语意子空间对样本进行特征提取,不仅可以避免小样本问题还可以在重构后的语意空间中提取抗噪声干扰的特征.在Yale库、AR库和Yale B库数据集上的试验结果表明:与现有算法相比,该算法有更优的性能,能更高效地提取不受噪声干扰的易分类人脸语意特征.  相似文献   

20.
针对传统局部线性嵌入算法在挖掘局部流形结构时未充分考虑样本邻居分布信息,且在降维过程中默认样本具有相同的重要性导致提取鉴别特征不明显的问题,提出基于共享近邻的加权局部线性嵌入(weighted local linear embedding based on shared neighbors, SN-WLLE)算法,并用于滚动轴承故障诊断.该算法首先使用余弦距离划分样本邻域;其次计算样本邻域对相似度用以评估样本共享近邻信息,并结合样本的6种邻居分布修正局部结构挖掘,提高多共享近邻的k近邻重构准确性;接着从多流形的角度评估样本点与近邻点间的稀疏分布一致性,以获得样本的重要性指标,并在低维空间保持该信息,进而提取准确的鉴别特征;最后结合KNN分类器构建出完备的轴承故障诊断模型.采用凯斯西储大学轴承数据集和实验室测试平台轴承数据集,从可视化评估、定量聚类评估、故障识别精度评估及鲁棒性评估等方面进行分析.结果表明:SN-WLLE算法的F值保持在108以上水准,平均故障识别精度最低可达0.973 4,不仅具有较好的类内紧致性与类间可分性,还对近邻参数k具有低敏感性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号