基于Hadoop云平台的并行数据挖掘方法 Parallel Approach in Data Mining Based on Hadoop Cloud Platform期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于Hadoop云平台的并行数据挖掘方法

引用本文：	杨来,史忠植,梁帆,齐保元.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(5).

作者姓名：	杨来史忠植梁帆齐保元

作者单位：	1. 中科院计算技术研究所智能信息处理重点实验室,北京 100190;中国科学院大学北京 100039 2. 中科院计算技术研究所智能信息处理重点实验室,北京,100190

基金项目：	国家自然科学基金，国家973项目，国家863高技术研究发展计划课题，国家科技支撑计划

摘要：	业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题.为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法；在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法；并利用Vega云对Hadoop集群进行仿真.实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域.
关键词：	并行数据挖掘决策树算法 KD树算法 JPA 云计算
Parallel Approach in Data Mining Based on Hadoop Cloud Platform

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏