首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 2 毫秒
1.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

2.
Boosting是机器学习领域中重要的集成学习方法,以AdaBoost为代表的Boosting算法通过在组合弱学习器时不断加强对错分类样本的关注以构建性能优异的强学习器,而该训练机制对噪声点的无差别对待易引发学习器对噪声过拟合,从而削弱算法的稳健性.针对该问题,提出结合加权KNN和自适应牛顿法的稳健Boosting方法.该方法首先通过加权KNN估计样本的噪声先验概率,然后使用噪声先验概率修正Logit损失构建一种新的损失函数,最后采用自适应牛顿法进行损失函数的优化求解.提出方法引导分类器在给予错分类样本更高权重的同时,对噪声先验概率大的样本给予相应的惩罚,使噪声样本的权重得到有效的缩减.结果表明,与其他稳健Boosting方法对比,在不同噪声水平下以及真实的医疗数据集的不同评价指标下,该方法表现出更好的稳健性,具有明显的应用价值.   相似文献   

3.
针对医学图像具有很高的特征维度和非常大的交叉性及相似性、极其容易造成类别归属混乱、导致医学图像多类别分类精度普遍较低的问题,首先提出了一种惯性权重自适应的粒子群算法,并以此为基础引入交叉算子提出一种混合优化算法.然后,采用中值滤波法、直方图均衡化方法对医学图像进行去噪、图像增强等预处理.最后运用改进后的混合粒子群算法集成SVM、KNN、Ada Boost分类器对医学图像进行特征分类研究.试验表明,本文算法的分类结果无论是直接特征提取,还是SIFT特征提取,相对于传统的分类器多类别分类准确率都有所提升;针对MIAS数据集,多类别分类相比于现有的分类算法有明显的精度提升.  相似文献   

4.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

5.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

6.
基于样本重要性原理的KNN文本分类算法   总被引:1,自引:0,他引:1  
KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高.  相似文献   

7.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

8.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

9.
【目的】针对K最近邻(K-Nearest Neighbor,KNN)算法中k值的选取通常是人为设定,而且通常是固定的缺点,研究如何更好地选取k值。【方法】引入k的可信度的概念,提出一种基于局部密度和纯度的自适应选取k值的方法,并将其引入到传统的KNN分类算法中。【结果】该算法合理的考虑了样本的局部密度、纯度与选取k值的关系,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。【结论】该算法是有效的,可以得到较高的准确率,但算法的时效性有待提高。  相似文献   

10.
为了进一步提高孪生支持向量机(Twin support vector machine, TWSVM)的自然语言文本分类准确度,提出了一种改进的粒子群优化(Particle swarm optimization, PSO)算法,并采用改进的PSO算法对TWSVM核心参数进行优化。根据迭代次数来选择自适应权重从而对传统PSO算法进行改进,以防止收敛速度过快而错过全局最优解。采用Word2Vec对自然语言样本进行向量化处理,并通过PSO算法对TWSVM惩罚因子进行优化求解,解决因为惩罚因子设置不合理而造成自然语言文本分类准确率不高的问题。试验证明,通过合理设置PSO算法的速度权重初始值和稳定值,结合自适应递减权重策略,能够获得较高的惩罚因子优化性能,从而提高TWSVM的分类准确率,相比于常见自然语言文本分类算法,PSO-TWSVM的分类准确率更高,均方根误差值更低,在自然语言文本分类中的适用度高。  相似文献   

11.
针对传统KNN算法忽略样本分布对分类的影响,易受到孤立样本、噪音等干扰,时间代价大等问题,提出了一种改进的近邻分类算法.该算法首先采用类维样本存储,打破了样本的整体性,转换了训练样本存储模式;其次按类维度寻求未知样本的类维近邻域,计算类维相似度进而得到未知样本的类别相似度;最后以最大类别相似度标识未知样本.该算法提高了分类效率,降低了独立样本对样本分类的影响.同时可处理连续型和标识型样本分类,并可适应各类样本分布情况,扩大了算法的应用范围.实验结果表明,该算法较传统的近邻算法与邻域分类算法在分类精度与分类时间上有了较大提升.  相似文献   

12.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

13.
K-近邻算法(K-nearest neighbor,KNN)是一种思路简单、易于掌握、分类效果显著的算法。决定K-近邻算法分类效果关键因素之一就是距离的度量,欧氏距离经常作为K-近邻算法中度量函数,欧式距离将样本的不同特征量赋予相同的权重,但是不同特征量对分类结果准确性影响是不同的。采用更能体现特征量之间相对关系的卡方距离度量作为KNN算法的度量函数,并且采用灵敏度法进行特征权重计算,克服欧氏距离的不足。分类实验结果显示,基于卡方距离的改进算法的各项评价指标优于传统的KNN算法。  相似文献   

14.
一种基于特征加权的K Nearest Neighbor算法   总被引:1,自引:0,他引:1  
传统的KNN算法一般采用欧式距离公式度量两样本间的距离.由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式.笔者提出一种计算权重的方法,即基于特征加权KNN算法.经实验证明,该算法与经典的赋权算法相比具有较好的分类效果.  相似文献   

15.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

16.
大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。  相似文献   

17.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

18.
KNN算法综述   总被引:2,自引:0,他引:2  
KNN(K最近邻)分类算法是应用最为广泛的分类算法。本文介绍传统的KNN方法的基础上,根据其不足,从降低计算复杂度提高算法的执行效率,相似度度量方法,决策规则等几方面综述KNN改进算法。  相似文献   

19.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

20.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号