首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

2.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

3.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

4.
为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。  相似文献   

5.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

6.
随着全球信息化的出现,手工分类索引已经不适用于大规模信息的处理,自动分类的研究得到迅速发展。K-近邻法是具有一定效率的自动分类算法。本文将其与智能优化技术结合,用于基于机器学习的文本分类过程中。实验结果表明,对于庞大的文档集合分类,该算法提高了分类的速度和精度。  相似文献   

7.
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN.  相似文献   

8.
为了提升分布不均匀样本的分类性能,该文提出了一种基于互邻信息的树型近邻(Tree-based k近邻,kTree)分类方法,以此提高k近邻分类的准确率。首先,采用回归模型刻画样本之间的紧密程度,获取每个样本的最优k值,从而获得最优邻居,并采用kTree提升搜索效率。其次,对于每一个测试样本,基于互邻信息准则,确定其邻域空间,完成k近邻分类。最后,数据集的试验结果表明,该文提出的基于互邻信息的kTree分类准确率高于传统k近邻分类等其他分类算法。该文提出的方法也为k近邻分类的改进提供了新的方向。  相似文献   

9.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

10.
应用主分量分析法和K-近邻法对基因芯片(微阵列)数据进行分析.主分量分析法是一种提取海量数据有效特征的有效方法 ,可以获得与原来基因芯片数据更为接近的成分的提取特征的效果.实验结果 表明,用主分量分析法预先对数据处理可以提高基因芯片数据分析的准确性.  相似文献   

11.
K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.  相似文献   

12.
入侵检测是一种重要的网络安全技术.现有的无监督方法虽然能在未经标记的数据上找出异常,但时间复杂度相对较高,不适用于入侵检测中大规模的数据集.针对这一问题,提出了一种新的发现异常的无监督方法,通过使用聚类和K-近邻距离和技术,克服了原有方法的缺点,具有较低的时间复杂度和较高的入侵检测效率.  相似文献   

13.
对随机近邻分类方法做了深入的研究 ,采用了随机近邻判决准则 ,对一事例数据进行了计算 ,并与多元系统聚类得出的结果进行对比 ,显示出随机近邻分类方法具有较好的非线性、非球形分类的特点 ,值得进一步推广应用  相似文献   

14.
基于SVM的特征加权KNN算法   总被引:19,自引:1,他引:19  
作为一种非参数的分类算法,K-近邻(KNN)算法是非常有效和容易实现的.它已经广泛应用于分类、回归和模式识别等.在应用KNN算法解决问题的时候,要注意两个方面的问题--样本权重和特征权重.利用SVM来确定特征的权重,提出了基于SVM的特征加权算法(FWKNN,feature weighted KNN).实验表明,在一定的条件下,FWKNN能够极大地提高分类准确率.  相似文献   

15.
基于k-近邻方法的渐进式中文文本分类技术   总被引:3,自引:0,他引:3  
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率.  相似文献   

16.
KNN是基于实例的算法,对于大规模样本算法分类性能不高.针对这一缺点,提出一种基于概率模型的学习矢量量化神经网络的改进KNN分类新方法.考虑到最优参考点训练的重要性,结合概率方法得到最佳参考点的判断准则函数,采用梯度下降最优化算法利用LVQ训练参考点的最佳位置.在对未知样本进行分类时选出样本x的K个近邻,采用"投票选举"机制最后判断样本x的所属类别.新方法减少KNN的计算复杂度和时间,弥补了KNN在处理大规模数据问题上的不足.在UCI中数据集上的仿真实验表明改进算法的可行性.  相似文献   

17.
对线性回归分类算法进行了改进。考虑了线性回归分类算法中没有考虑的类间信息,通过选择类模式的投影方向判别不同类的模式,不同类的模式互相远离,相同类的模式尽可能靠近来估计投影矩阵;再利用投影矩阵将训练图像及测试图像投影到各类的特征子空间;最后,计算出测试图像与训练图像间的距离,利用K-近邻分类器完成人脸的识别。在FERET人脸数据库上进行实验验证。实验结果表明,相比其他回归分类算法,本算法取得了更好的识别效果。  相似文献   

18.
K-近邻算法(K-nearest neighbor,KNN)是一种思路简单、易于掌握、分类效果显著的算法。决定K-近邻算法分类效果关键因素之一就是距离的度量,欧氏距离经常作为K-近邻算法中度量函数,欧式距离将样本的不同特征量赋予相同的权重,但是不同特征量对分类结果准确性影响是不同的。采用更能体现特征量之间相对关系的卡方距离度量作为KNN算法的度量函数,并且采用灵敏度法进行特征权重计算,克服欧氏距离的不足。分类实验结果显示,基于卡方距离的改进算法的各项评价指标优于传统的KNN算法。  相似文献   

19.
为了克服Relief选择前k个特征作为约简子集所存在的原始特征空间中的近邻在约简后的特征子空间中不一定还是近邻的问题,提出了一种在特征子空间中评价候选特征子集类别区分能力的方法,并结合最好优先特征搜索策略提出了一种新的特征子集选取方法.在12个UCI(加州大学欧文分校)数据集和1个老年痴呆实测数据集上,就约减能力对所提方法与其他3种经典特征选择方法进行了比较,并用决策树、逻辑回归模型详细比较了分类效果.实验结果表明:所提方法不仅能够选出特征数目较少的特征子集,而且特征子集的分类效果良好.  相似文献   

20.
K-最近邻分类技术的新发展与技术改进   总被引:1,自引:0,他引:1  
K-最近邻算法是数据挖掘分类方法中最常用的算法之一.在很多实际问题上都有应用.本文对近年来基于K-最近邻算法的各种改进技术进行了分析.从速度提高和准确度提高两个方面给予了归纳.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号