首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

2.
蔡贺  张睿 《甘肃科技》2012,28(18):15-16
从介绍和分析k最近邻域分类算法入手,对该算法进行了分析与研究,剖析了kNN分类算法中的关键问题,为读者呈现了分类效果,并指出了该算法存在的问题以及解决方法,并对算法未来的发展进行了展望。  相似文献   

3.
kNN算法作为一种简单、有效的分类算法,在文本分类中得到广泛的应用。但是在k值(通常是固定的)的选取问题上通常是人为设定。为此,本文引入了重构和局部保持投影(locality preserving projections,LPP)技术用于最近邻分类,使得k值的选取是由样本间的相关性和拓扑结构决定。该算法利用l1-范数稀疏编码方法使每个测试样本都由它的k(不固定)个最近邻样本来重构,同时通过LPP保持重构前后样本间的局部结构不变,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。实验结果表明,该方法的分类性能优于经典kNN算法。  相似文献   

4.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

5.
三种分类算法的实验比较   总被引:1,自引:0,他引:1  
对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究、实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析.  相似文献   

6.
基于基尼的模糊kNN分类器   总被引:2,自引:0,他引:2  
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。  相似文献   

7.
提出一种最近邻分类的改良模型,综合考虑待分类数据的k近邻、所属的簇和整个训练数据集的类分布,充分利用局部、部分和全局三种类分布信息,从而具有抗噪声的性能.实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的kNN分类算法.  相似文献   

8.
基于ELM特征映射的kNN算法   总被引:1,自引:0,他引:1  
研究了基于ELM特征映射的kNN算法,利用ELM特征映射,将原始数据映射到这种高维特征空间当中,使得数据间变得更加线性可分,即数据结构会变得简单,因此,在利用kNN算法进行分类时,利用ELM特征空间中对应的特征数据代替原始空间中的数据进行分类将会取得更好的分类效果.最后,来自MNIST和UCI中的几个数据集的仿真实验进一步验证了该算法的优良性能.  相似文献   

9.
对人脸图像RGB彩色空间三分量的非线性流形嵌入进行了分析,提出一种结合了流形学习技术和图像彩色信息的人脸识别方法。 该方法对人脸图像的彩色三分量分别采用局部线性嵌入(LLE)方法进行特征提取,提取的特征进行归一化处理和特征融合,采用线性判别分析(LDA)增加分类判别性,最后采用k最近邻法(kNN)进行分类。 该方法中提取的特征,能够保持人脸图像数据的非线性结构,同时利用了人脸图像的彩色信息。 对比实验结果表明,利用了彩色信息的三分量流形学习特征融合方法,比Fisherface特征灰度图像和单个彩色分量的人脸识别性能有所改善。   相似文献   

10.
基于聚类的垃圾邮件识别技术研究   总被引:1,自引:0,他引:1  
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。  相似文献   

11.
杨程  颜海泉  董正方 《科学技术与工程》2023,23(25):10910-10917
钢筋混凝土(RC)柱在地震力的作用下会发生不同的破坏模式,不同的破坏模式会有不同的损伤特点。所以,有必要针对不同地震破坏模式提出有效的判别方法。首先基于SMOTE算法使数据样本达到均衡,其次根据ENN算法,筛选了判别弯曲破坏和非弯曲破坏、弯剪破坏和剪切破坏的最佳参数;再次通过TomekLinks算法合理剔除噪音样本重构均衡数据,最后基于kNN算法建立了两阶段kNN模型,达到了准确判别RC柱地震破坏模式的目的,并通过与传统kNN模型、传统经验方法进行对比分析,验证了模型的优异性。研究结果表明:该方法通过选取筛选最佳参数,在提高判别准确率的同时简化了传统机器学习判别模型;本模型提出的两阶段kNN模型对三种破坏模式的判别准确率均可达90%以上,比传统kNN模型高10%左右,比传统经验判别方法高20%左右。  相似文献   

12.
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类. 这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.  相似文献   

13.
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类. 在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验. 结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.  相似文献   

14.
为了有效地实现人脸的检测效果,文章在AdaBoost算法基础上提出一个改进的人脸检测算法.为了有效地消除光照和成像对人脸的影响,该算法将Canny修剪算法和伽马矫正算法进行结合,有效地消除光照和成像设备对人脸的影响.并利用VisualC++和OpenCV等开发工具设计了一个人脸检测系统.本系统采用20×20的人脸图像和背景图像各1000张训练了一个7层的级联分类器,每一层构成的强分类器由一组基于Haar特征的弱分类器构成.该系统通过自选137幅包含人脸和背景的图片对系统进行测试,获得94.72%的正确检测率以及26.42%的误检率.  相似文献   

15.
依托欧拉距离,使用杂合距离算法改进Minkowski距离公式,使得最近邻算法能够针对不同实际需要计算两事例距离,适用到属性是混合型的情形,也能避免时序列中出现的错误计算问题。  相似文献   

16.
覆盖算法和支持向量机是两种重要的机器学习分类方法,但长期以来一直缺少基于覆盖算法的通用分类器,在一定程度上阻碍了覆盖算法的推广.论文设计和实现了基于覆盖算法的通用分类器J Cover,该分类器有友好的人机交互界面,能对数值型数据集进行有效分类,并给出详细的实验结果.通过与LIBSVM的对比实验表明J Cover在识别率、泛化能力和性能上具有优越性.  相似文献   

17.
针对基于决策树和神经网络的增量学习算法的过量匹配和分类精度有限的缺点,提出了一种基于贝叶斯分类器集成的增量学习方法.综合朴素贝叶斯的增量分类和集成的增量学习方法,采用随机属性选择训练初始SBC(simple Bayesian classifiers),通过判断是否带有类别标签,将增量样本自动分组,并利用遗传算法对结果进行优化.实验结果表明,贝叶斯分类器集成的增量学习方法有效.  相似文献   

18.
为获得改进的分类算法BP_Adaboost,利用思维进化算法(MEA)和列文伯格-马夸尔特算法(LM)结合改进的BP神经网络作为弱分类器,由改进的弱分类器集成得到MEA-LM-BP_Adaboost算法.提出了基于MEA-LM-BP_Adaboost算法的首轮融资时总票房分类预测方法,该方法包括变量选取及操作化处理、网络参数优化、MEA改进弱分类器、LM算法改进弱分类器、MEA-LM-BP_Adaboost算法的流程设计、待预测电影验证6个部分.选用2013~2018年的245部国产电影作为样本验证该预测方法和模型,测试集分类准确率可达73.3%.最后在模型准确率、稳定性、K折交叉验证3方面进行模型整体性能比较,结果表明本文提出的模型整体性能最好.  相似文献   

19.
针对传统AdaBoost算法在人脸检测中训练耗时和误检率高的问题,提出一种改进的AdaBoost算法.新算法在基于PSO的AdaBoost算法基础上对弱分类器的选择和整合两个阶段进行改进.弱分类器选择阶段,在使用PSO迭代选择最佳弱分类器之前,剔除部分无用特征,缩小粒子搜索空间;弱分类器整合阶段,在采用基于核函数的非线性感知器算法优化调节弱分类器参数的过程中使用一种新的与正样本分类能力有关的弱分类器初始参数.采用基于MIT数据库的实验结果表明,本文算法比基于PSO的AdaBoost算法在检测性能上有明显提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号