科技创新大数据清洗框架研究 |
| |
引用本文: | 赵月琴,范通让.科技创新大数据清洗框架研究[J].河北省科学院学报,2018(2). |
| |
作者姓名: | 赵月琴 范通让 |
| |
作者单位: | 石家庄铁道大学信息科学与技术学院 |
| |
摘 要: | 河北省科技创新大数据公共平台是以海量数据资源为基础,基于数据仓库与数据挖掘技术构建,面向管理部门开展决策服务,面向社会公众开展信息服务的网络信息平台。但是,在构建数据仓库的过程中,存在各种各样的数据质量问题,最终产生各种错误的分析结果,所以,在进入数据仓库前,必须对数据进行清洗,从而保证进入数据仓库的数据质量。根据河北省科技攻关项目科技大数据标准化处理与应用系统,提出科技创新大数据清洗框架,在框架的基础上,定义清洗规则,改进清洗算法,在真实数据集上进行实验,解决了进入数据仓库的数据质量问题,从而保证了数据在数据仓库中的一致性和正确性,为后期的分析和处理提供了坚实的数据基础。
|
本文献已被 CNKI 等数据库收录! |
|