首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
kNN算法作为一种简单、有效的分类算法,在文本分类中得到广泛的应用。但是在k值(通常是固定的)的选取问题上通常是人为设定。为此,本文引入了重构和局部保持投影(locality preserving projections,LPP)技术用于最近邻分类,使得k值的选取是由样本间的相关性和拓扑结构决定。该算法利用l1-范数稀疏编码方法使每个测试样本都由它的k(不固定)个最近邻样本来重构,同时通过LPP保持重构前后样本间的局部结构不变,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。实验结果表明,该方法的分类性能优于经典kNN算法。  相似文献   

2.
一种新颖的基于马氏距离的文本分类方法的研究   总被引:1,自引:0,他引:1  
KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一.该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用.因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahala...  相似文献   

3.
基于凸包的k局部超平面距离分类方法,通过改进k近邻算法在处理小样本问题时的决策边界而显著提高分类性能.但是,该方法对噪声和类的数目敏感,并且在一类样本"包围"另一类样本时,由于外围类凸包与内部样本的距离为零而导致分类错误.针对上述问题,提出了k子凸包分类方法,该方法融合了k近邻分类和凸包技术的优点,首先寻找测试样本的k近邻,然后在该邻域中计算测试样本到相应类的子凸包的距离,并根据距离大小来确定该测试样本的类别,有效克服了k局部超平面距离分类存在的不足.大量实验表明,文章提出的k子凸包分类方法在分类性能上具有显著的优势.  相似文献   

4.
k局部凸包分类方法通过改进k近邻算法在处理小样本问题时的决策边界而显著提高分类性能,k子凸包分类方法通过克服k凸包分类对类数和样本环状分布的敏感性而改善了分类性能。但是,该方法仍然对样本距离度量方法敏感,并且在k邻域内不同类的样本数经常严重失衡,导致分类性能下降。针对上述问题,文章提出了一种邻域k凸包分类方法,并通过引入距离度量学习和集成学习技术来提高算法对样本空间度量的鲁棒性。大量实验表明,文中提出的基于度量学习的邻域k凸包集成方法具有显著的分类性能优势。  相似文献   

5.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

6.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

7.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

8.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

9.
针对单一k近邻算法(KNN)和最小二乘支持向量机(LSSVM)存在的缺陷, 提出一种基于KNN LSSVM的Android恶意行为识别模型. 先采集Android用户行为样本, 并提取相应特征组成特征向量; 再将训练集输入LSSVM中进行学习, 计算测试样本与最优分类平面间的距离, 如果该距离小于阈值, 则直接采用LSSVM恶意行为识别, 否则采用KNN算法进行恶意行为识别; 最后采用仿真实验测试KNN LSSVM的性能. 实验结果表明, 相对于单一KNN算法和LSSVM, KNN LSSVM提高了Android恶意行为的识别正确率,可以满足Android[KG*6]恶意行为的在线识别要求.  相似文献   

10.
近年来,随着人工智能领域技术的不断发展,脑机接口(Brain-Computer Interface,BCI)吸引了更多学者的关注。实时监测高强度脑力工作者的脑力负荷水平并其任务做出动态调整是保护国家财产和操作人员安全的重要手段。研究表明由脑电图(Electroencephalogram,EEG)提取的特征功率谱密度对于脑力负荷的变化比较敏感,但由于其维数过高,容易造成数据灾难。传统的主成分分析(Principal Component Analysis,PCA)算法会损失部分非线性特征。局部线性嵌入(Locally Linear Embedding,LLE)是常用的非线性降维算法,但该算法对噪声的敏感性高,降维结果受参数影响较大。稳健局部线性嵌入算法RLLE(Robust Locally Linear Embedding),在LLE优化权重矩阵时添加了正则项优化,不仅增强了模型的抗噪能力,也解决了解模型过程中可能会出现的矩阵病态和奇异性问题。该算法中的参数k在使用时经常选取较小的值以更好地捕捉数据集的局部结构,并大大减少了模型的计算时间。但脑电数据具有维数高,复杂度高的特点。选取小的k值不仅会导致模型对噪声异常敏感,也会使模型忽略重要的大邻域结构从而影响降维结果的准确性。本实验在使用该算法时,结合模型精度和计算时间选取了更合理的k值区间,使模型在保持高效的同时具有更强的抗干扰能力,并可以提供更全面的信息来描述数据集,使得嵌入结果更加准确。实验结果表明,经过RLLE降维后的数据使用支持向量机(Support Vector Machine, SVM)分类精度普遍高于经过PCA的降维方式,具有更强的抗干扰能力。  相似文献   

11.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

12.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

13.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

14.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.  相似文献   

15.
在线社交网络中用户伪装攻击检测方法研究   总被引:1,自引:0,他引:1  
当前用户伪装攻击检测方法无法适应动态环境,实时性不高;且需要准确的先验知识,检测精度较低。提出一种新的在线社交网络中用户伪装攻击检测方法,介绍了k最邻近节点(KNN)算法的基本思想,给出KNN算法的实现过程。分析了用户伪装攻击检测与分类的关系,确定在线社交网络中用户伪装攻击检测就是对被检测的未知行为进行分类的过程。针对用户行为,将训练集中正常用户行为的邻居进行排列,通过和k相似的邻居的分类标签对新用户行为类别进行判断,从而实现用户伪装攻击检测。实验结果表明,所提方法不仅检测精度高,而且开销小。  相似文献   

16.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

17.
陈雪芳 《科学技术与工程》2013,13(20):5839-5842,5847
针对传统支持向量机算法时空复杂度较高的不足,提出了一种基于交叉验证KNN的支持向量预选取算法。该算法首先对原始样本求k个的邻近样本,然后计算邻近样本中异类样本的比例p1,最后选取满足p1大于阈值p的原始样本作为支持向量。通过交叉验证方法确定k与p的最合适的数值。在UCI标准数据集和说话人识别数据集上的仿真实验显示算法可有效地降低支持向量机分类器的运行时间,同时又具有较好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号