首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响.本文设计和实现一种基于MapReduce架构的并行决策树分类算法.实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能.  相似文献   

2.
针对传统决策树SPRINT(Scalable Parallelizable Induction of Decision Trees)算法不能处理海量地学数据挖掘的问题, 设计实现了基于G4ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System)的决策树并行分类算法PSPRINT。该算法使用哈希表存储连续属性分割点两侧的数据记录, 为并行节点的分割提供依据, 在MapReduce架构下解决了海量地学数据挖掘问题。实验结果表明, 在模拟的云计算环境下, 决策树并行算法可以处理海量地学数据分类问题, 并获得较好的稳定性和较高的处理速度。  相似文献   

3.
针对传统决策树分类算法在多数据流分类的正确率和处理速度存在的不足,提出了一种基于基因表达式编程(GEP)的多数据流分类并行算法,以提高多数据流分类的正确率和处理速度.根据GEP在数据分类上的优势,运用GEP原理和数据流段中分类目标相似属性合并构造多数据流分类算法,并对多数据流分类算法进行并行设计与分析,在多核PC上进行对比实验.实验结果表明:该串行与并行分类算法均优于传统算法,且在多样本上具有较好的加速比.  相似文献   

4.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

5.
为了保护机器学习中决策树数据和模型的隐私,并减少计算和通信开销,提出了一种多密钥隐私保护决策树评估(multi-key privacy-preserving decision tree evaluation,MPDE)方案。利用分布式双陷门公钥密码(distributed two-trapdoor public-key crypto,DT-PKC)系统对所有数据进行加密。基于跨域安全加法协议实现来自不同公钥加密的两个密文的加法,改进原有的安全比较协议以支持多用户多密钥,保护了请求信息、分类结果和决策树模型的隐私。引入可信第三方密钥生成中心,减少了实体之间的通信开销,且在密钥分发完后离线。采用服务代理商代替用户与云服务器交互,降低了用户与云服务器之间的通信开销和用户的计算开销。安全与性能分析表明该方案具有高隐私性和高效性。同时,仿真实验显示该方案具有更低的计算开销。  相似文献   

6.
根据神经网络串行布局算法 ,进一步研究并提出了与布局问题相适应的神经网络并行计算模型及并行布局算法 ,以负载平衡及系统通信开销最小为目标 .理论分析结果表明 ,运用该算法能达到此目标 ,且具有布局质量高、收敛快、计算简单等特点 ,适于神经网络并行布局  相似文献   

7.
Cholesky分解并行算法的性能评测   总被引:1,自引:0,他引:1  
完成对ABEEMσπ模型电荷分布计算的Cholesky分解并行算法的性能评测.在评测过程中,利用通信性能基准测试工具MPBench及其改进后的测试程序分析了该算法中的通信对并行性能的影响.分析结果表明在cpu增长到一定数目后,此算法的通信开销严重影响了并行性能的提高,应该采取相应的解决措施.  相似文献   

8.
通过研究ad hoc网络中移动节点的通信规律,在传统的三种通信模式的基础上定义了一种新的节点通信模式快速穿行模式,并针对该通信模式提出了一种新的路由算法路由代理算法·在快速穿行模式下,网络拓扑变化频繁,导致大量的系统带宽开销和计算开销,同时较大增长了承载业务的时延·路由代理算法是对当前表驱动ad hoc网络路由算法的补充,它专门针对快速穿行模式中高速节点的路由方法作出了修改,大大降低了由于高速节点快速运动导致的路由更新报文开销·仿真实验结果表明:该算法明显缩短了发往高速节点的数据传输时延,提高了路由的效率·  相似文献   

9.
提出了异构块同步并行 (HBSP)模型和程序开销计算方法 ,依据通信开销线性模型和处理机利用率来研究异构环境中算法的设计和分析 .以快速傅立叶变换 (FFT)为例 ,给出了相应的算法设计和分析结果 .当构成块同步并行 (BSP)计算机的各处理机速度相同 ,且原有 BSP算法达到最优 (即各处理机上所分配的计算量与通信量完全均衡 )时 ,HBSP模型等同于原有模型  相似文献   

10.
为了提高预测并行软件性能的准确性和并行软件的开发效率,提出了一种基于单程序多数据流(SPMD)并行应用软件模块化技术的性能分析预测和并行软件辅助开发方法.通过量化计算开销、通信开销、通信与计算的耦合系数,阐述了在并行计算机系统中利用该方法开发并行计算软件和预测并行计算软件性能的过程.并就影响并行软件性能预测和开发效率的模块设计、模块性能数据建模、模块组合和计算与通信重叠等技术进行了研究.实验表明,该方法提高了预测并行计算软件性能的准确性,也提高了并行计算软件的性能和开发效率.  相似文献   

11.
【目的】为提高决策树集成的泛化能力和效率,解决集成全部决策树的情况下有时并不显著提高精度、反而导致额外存储和计算开销的问题,提出一种基于粗糙集的决策树集成学习算法。【方法】该算法基于粗糙集理论,从训练的全部决策树中选择一部分进行集成。【结果】与目前流行的集成学习算法Bagging和Boosting相比,本文提出的算法有效地减小了集成规模,并获得更好的泛化能力。【结论】该算法提高了决策树集成的泛化能力和效率。  相似文献   

12.
郭辉  王阳 《科技信息》2008,(30):26-27
针对数据挖掘中的分类问题,根据多分类器融合的思想,提出一种基于粒子群优化算法的多重决策树分类器融合方法。先将概率度量水平的多重决策树进行线性组合,然后在融合算法中采用粒子群算法优化连接权值矩阵。并在UCI标准数据集上对模型进行了实验研究。结果表明该融合分类方法比单个决策树分类方法具有更高的分类精度。  相似文献   

13.
为解决多类分类问题,在分析SVM决策树分类器及存在问题的基础上,通过引入类间可分离性测度,并将其扩展到核空间,提出一种改进的SVM决策树分类器。实验表明了该分类算法对提高分类正确率的有效性。  相似文献   

14.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

15.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

16.
为解决因庞大的矩阵存储和计算,ELM(Extreme Learning Machines)难以应用到大规模、高维数据集的问题,提出一种基于“分而治之”策略的并行极速学习机算法。
该算法利用二叉级联结构,将大规模数据集分派到多个计算节点上,并行地更新单隐层前馈网络的输出权值,且能有限步地单调收敛到最小二乘解。实验结果表明,该算法不仅泛化性能优异,并且具有非常高的加速比和并行效率。  相似文献   

17.
在Ant-Miner算法基础上提出了一种利用蚁群算法解决分类规则挖掘的算法(ACR),设计了合理的蚂蚁选择属性及属性分区的概率公式,并对规则质量的衡量等策略进行改进,可以较好地挖掘分类规则.在标准数据集上通过与Ant-Miner算法和经典的基于决策树的C 4.5算法比较,ACR在挖掘分类规则的简单性、正确率上有较好的表现.  相似文献   

18.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

19.
提出一种基于双支持向量机的偏二叉树多类分类算法,偏二叉树双支持向量机多类分类算法.该算法综合了二叉树支持向量机和双支持向量机的优势,实现了在不降低分类性能的前提下,大大缩短训练时间.理论分析和UCI(University of California Irvine)机器学习数据库数据集上的实验结果共同证明,偏二叉树双支持...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号