首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了进一步改进邻域分类器的分类机制,提升分类性能,提出Dempster-Shafer(D-S)证据理论驱动的邻域粗糙分类方法.首先,采用邻域决策错误率作为属性重要性的指标研究基于邻域决策错误率的属性约简方法,通过删除冗余属性,为分类学习提供重要的属性集合;其次,改变传统多数投票机制,将D-S证据理论引入邻域样本的信息融...  相似文献   

2.
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.  相似文献   

3.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

4.
为了进一步提高约简求解的效率,该文在桶模型的基础上,从数据中属性间的相似性程度出发,将属性划分为不同的簇,使得在约简的搜索进程中,只需以属性簇为基准进行候选属性的筛选即可达到压缩属性搜索空间的目的。实验结果表明,无论是采用传统的邻域计算或是基于桶模型的邻域计算,在不降低分类性能的前提下,基于属性簇的搜索策略都能显著降低求解约简的时间消耗。该文研究可从样本和属性两方面为约简求解加速提供参考。  相似文献   

5.
邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据。因为引入了邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对负域中的样本进行邻域划分操作,算法计算量很大。为此提出了一种基于Relief算法属性重要度的快速属性约简算法,降低计算邻域的算法时间复杂性。通过和现有算法运用多组UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

6.
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.  相似文献   

7.
针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利用投票法以及三支决策规则对标签对齐后的聚类成员进行集成,得到最终的三支聚类结果.实验结果显示,本方法能够有效处理大规模不确定性数据,相比传统基于Spark的聚类算法效率更高.  相似文献   

8.
基于邻域决策错误率的属性约简可以在删除冗余属性的同时,提升邻域分类器的留一验证分类精度.但这种约简方式并未充分考虑邻域分类结果在约简前后的差异.为解决这一问题,借助联合分布矩阵,提出了邻域决策一致性的概念,构建了邻域决策一致性与邻域分类精度的调和平均值,并将其作为约简求解的度量准则.在12个UCI数据集上的实验结果表明,所提出的新约简不仅能够有效地提升邻域分类器的决策一致性,而且在多数情况下能够进一步提高邻域分类器的留一验证分类精度.  相似文献   

9.
该文探讨了基于大数据技术的机器学习算法,基于大数据进行机器学习的模型提高了算法的准确性,机器学习实现分析更高级别的数据,基于Spark+Hadoop处理技术的机器学习适应迭代式机器学习模型的特定需求,机器学习分析数据中的关系获得规律预测新样本。对数据进行收集、统计和分析的大数据系统引入机器学习进行大数据计算,机器学习的深度和广度也提升了大数据分析效率。  相似文献   

10.
针对目前零样本图像分类均采用图像底层视觉特征训练属性分类器而导致分类精度较低的问题,提出一种基于稀疏编码空间金字塔模型的零样本学习方法,给出系统结构流程图.首先从原始视觉图像中提取SIFT特征,并进行SIFT特征点提取;然后构建空间金字塔最大池化模型,对已提取的SIFT中间特征进行稀疏编码;最后建立间接属性预测模型.给出基于稀疏编码的空间金字塔最大池化模型的零样本学习算法步骤,完成对目标图像的属性预测,从而达到零样本图像分类的目的.在Shoes数据集与OSR数据集上进行了对比试验.结果表明:试验证实了文中算法的有效性;相对于传统算法,试验耗时减少,图像属性预测精度增加,图像分类识别率提高.  相似文献   

11.
为了提升邻域分类器的分类性能,提出了一种利用邻域AUC作为分类性能度量指标的启发式是属性选择算法.首先,利用邻域分类器得到邻域AUC,然后在此基础上,借助贪心搜索策略,逐步加入使得邻域AUC尽可能大的属性,当邻域AUC不再增大时,算法终止.在7个UCI数据集上的实验结果表明,使用邻域AUC属性选择算法,可以在使用较少属性个数的基础上,有效地提升邻域分类器的分类性能.  相似文献   

12.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

13.
针对大数据分类中的不平衡问题,本文提出一种基于边界条件生成式对抗网络(Boundary Conditional Generative Adversarial Networks,BCGAN)的不平衡大数据模糊分类算法,通过在多数类数据和少数类数据的决策边界附近引入一个边界少数类到过样本,生成更合适的少数类数据来提高分类性能.将处理过的平衡数据转换成概率索引表,数据和属性分别以行和列的形式呈现,计算每个数据属性中存在的唯一符号的隶属度,然后设计相关模糊朴素贝叶斯(Correlative Fuzzy Naive Bayes,CFNB)分类器进行数据分类.本文给出MapReduce框架下大数据模糊分类的并行实现.实验结果表明:所提基于BCGAN的不平衡大数据模糊分类准确度优于其他现有方法,说明该方法具有可行性和有效性.  相似文献   

14.
基于邻域粗糙集的属性约简模型既受邻域半径参数值的影响,又不能评估属性与样本对象之间的内在关系.为此,本文先提出鲁棒近邻来确认对象的邻域,计算出若干个与样本对象最近同类与最近异类对象距离的平均值,然后依据分类区分函数的定义来确定近邻类的邻域半径大小,构造了鲁棒近邻粗糙集模型.最后按照其模型,基于样本对象对属性的评价准则提出了鲁棒近邻的属性约简算法.该算法模型分别在CART,KNN和LSVM三个分类器和10个样本数据集中测试运行,实验效果表明该模型不但可以筛选得到较少的属性集,而且还可以有效提高分类精度.  相似文献   

15.
随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.  相似文献   

16.
针对分布式传感器网络提出多维概率Top-k查询处理算法DMPT.利用Skyline操作返回Top-k元组,通过反馈机制和过滤机制减少数据传输量及查询处理时间.DMPT考虑了数据的不确定性、多维属性以及网络的分布式和能源受限特征,根据Skylayer计算得到Top-k结果.通过真实数据和模拟数据实验验证得到:DMPT算法比传统算法具有更高的节能效率和更快的响应速度.  相似文献   

17.
属性约简是数据挖掘、机器学习等研究领域中的一个非常重要的预处理步骤,其效率的高低会直接影响到数据挖掘、机器学习等相关任务的性能。针对目前已有的非增量式属性约简方法在处理不一致邻域信息系统动态变化时无法高效更新属性约简的问题,提出一种在不一致邻域决策信息系统中对象集发生变化时的增量式属性约简方法。首先,该文以不一致邻域决策信息系统为研究对象,结合不一致邻域的特点给出了一种新的不一致度的表示方法。在此基础上用不一致度来表征属性重要度,以属性重要度为启发式信息研究不一致邻域信息系统对象集发生变化条件下邻域类以及不一致度的更新机理。随后,以不一致度为启发信息构建了增量式属性约简算法。进一步,在UCI上选取6个数据集,通过分类精度测试实验精选出各个数据集的最佳邻域半径δ,最后,利用最佳邻域半径δ在各个数据集上执行增量式属性约简算法实验,实验结果表明该文提出的增量式属性约简算法在保持分类精度不变的前提下较其他算法更加快速和有效。  相似文献   

18.
提出了一种基于二进制灰狼算法和邻域粗糙集的案例推理分类算法(bGWO-NRSCBR),以有效处理工控网络数据样本高维、冗余的问题。首先,将邻域粗糙集(NRS)中的依赖度概念和属性个数作为二进制灰狼优化算法(bGWO)的适应度函数,通过狼群不断更新位置寻找最小相对属性集;然后基于属性重要度对权重进行优化分配从而建立案例推理(CBR)分类模型;最后利用该模型对工控网络标准数据集进行入侵检测研究。实验结果表明,本文算法能够获得最小相对属性子集,并有效提高入侵检测算法的准确度和效率。  相似文献   

19.
为了解决局部支持向量机算法KNNSVM存在的分类时间过长不利于具有海量数据量的高分辨率遥感图像分类的不足,提高KNNSVM的算法表现,提出了改进的基于不确定性的BKNNSVM算法.该算法利用二项式分布的共轭先验分布Beta分布根据近邻的分布情况推导该未标记样本属于正类或负类的概率大小,从而计算每一个未标记样本在类属性上的不确定性大小.再通过设置不确定性阈值的大小,对不确定性低于阈值的未标记样本直接采用KNN进行分类,而对高于阈值的样本利用其近邻建立局部支持向量机分类器进行分类.对高分辨率图像分类的实验结果表明:合适的阈值能够有效降低原始KNNSVM算法的时间开销,同时能保持KNNSVM分类精度高的特点.  相似文献   

20.
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号