首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
河北省科技创新大数据公共平台是以海量数据资源为基础,基于数据仓库与数据挖掘技术构建,面向管理部门开展决策服务,面向社会公众开展信息服务的网络信息平台。但是,在构建数据仓库的过程中,存在各种各样的数据质量问题,最终产生各种错误的分析结果,所以,在进入数据仓库前,必须对数据进行清洗,从而保证进入数据仓库的数据质量。根据河北省科技攻关项目科技大数据标准化处理与应用系统,提出科技创新大数据清洗框架,在框架的基础上,定义清洗规则,改进清洗算法,在真实数据集上进行实验,解决了进入数据仓库的数据质量问题,从而保证了数据在数据仓库中的一致性和正确性,为后期的分析和处理提供了坚实的数据基础。  相似文献   

2.
数据清洗的主要任务是将数据中的脏数据检测出来并进行修正,提高数据质量,减小数据质量问题给数据应用带来的影响.由于流数据的特点是数据量大且增长快速,所以针对流数据的清洗研究除了要考虑到数据质量的提高,还需要考虑到数据体积的压缩以缩减成本.现有的方法不能很好的兼顾数据质量的提高和成本的缩减问题,因此在已有的研究基础上提出一种基于语义的轨迹流数据清洗方法——将裸数据转化为语义轨迹,同时将语义作为动态指标去除重复采样和修复异常数据.实验证明,该方法能有效地缩减数据体积以降低保存成本,同时数据的质量密度得到了明显的提高.  相似文献   

3.
为了实现数据的共享及数据价值发现,需要对数据进行迁移和清洗.数据迁移的效率和数据质量的好坏,直接影响到数据挖掘的效果和价值.本文对数据迁移与清洗的策略进行了研究,设计了数据迁移与数据清洗的流程和策略,通过寻求最优线程数,并行处理数据迁移与清洗,并将其应用到政务服务基础数据的处理上.在处理速度和数据质量上都有明显提升,同...  相似文献   

4.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

5.
数据清洗是提高数据集成质量的一个重要手段. 提出了一种基于动态规则的数据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗两者结合起来,强化清洗的描述能力. 实际应用表明,AzszpClean方法可以完成硬编码的功能,具有更高的实现效率.  相似文献   

6.
DB-ODS-DW三层体系结构满足了信息处理的多层次需求,ODS在其中承担了重要的角色,为了提高ODS中的数据质量,进入到ODS环境中的数据必须经过清洗.在给出ETL过程中数据清洗模型的基础上,针对已知和未知的错误类型,以及语义上的错误,提出了一种自动清洗和人为清洗相混合的数据清洗策略,具有较好的现实意义。  相似文献   

7.
数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。  相似文献   

8.
数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败.数据质量存在问题有多方面的原因,在此基础上提出了实施数据清洗的五个步骤,最后阐述了提高数据质量的方法.  相似文献   

9.
在热电池用无碱玻璃纤维带的清洗工艺中,采用表面活性剂复合配方替代航空汽油,可以解决航空汽油清洗过程中给操作人员以及环境带来的危害;降低清洗成本;改善无碱玻璃纤维带的外观质量;同时增大了清洗后的无碱玻璃纤维带的抗拉强度。  相似文献   

10.
随着信息技术快速的发展与信息系统应用的加深,企业积累了大量的历史数据,支撑企业正常运营与决策。为了使决策更加正确、有效,需要对历史数据进行有效的数据质量评估,并基于评估结果进行数据清洗。重点研究了基于数据维度下数据质量约束的数据质量评估方法,确定数据质量评估维度,并定义了各维度下的数据质量约束,并基于约束给出数据质量评估算法。方法在大庆油田生产数据库数据质量评估项目与河北汉光重工有限责任公司财务系统数据库数据质量评估项目中得到了应用。  相似文献   

11.
针对测井和试井资料中存在数据质量的问题,提出了一种基于聚类分析和神经网络预测技术的数据清洗新方法。该方法首先检测测试井数据中存在空缺项的记录数据,对无空缺数据项的记录数据采用模糊聚类分析技术进行数据分类,再对各类数据分别进行蚁群聚类分析和神经网络学习并矫正噪声数据。将该数据清洗方法运用到试井分析中进行检验,取得了良好的效果。为提高测试井数据质量进行正确的解释评价提供了保证。  相似文献   

12.
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端.  相似文献   

13.
数据清洗前的预处理方法   总被引:2,自引:0,他引:2  
为提高数据清洗的质量,提出消除脏数据域、使用统一的缩写、数据的转换等预处理方法,基于这3种方法和链表存储复制记录算法,设计一个数据清洗的系统,与其他方法的效率与准确程度比较可知,该系统的数据准确程度要高于现有的数据清洗系统.  相似文献   

14.
通过语义情景分析及向量化对访问流量语料库大数据进行词向量化处理,实现了面向大数据XSS入侵智能检测研究.利用自然语言处理方法进行数据获取,数据清洗,数据抽样,特征提取等数据预处理;设计了基于神经网络的词向量化算法,实现了词向量化得到词向量大数据;通过理论分析和推导,实现了不同深度的深层神经网络智能检测算法;设计不同的超...  相似文献   

15.
昆明市社会保险管理系统包括医疗、养老、失业、工伤和生育五大业务子系统,由于信息化建设进程的前后不一致导致五大业务子系统之间数据的不一致,因此对五险数据进行清洗与整合、建立五险公共数据库势在必行。针对社保领域的数据质量问题,本文设计了数据清洗整合系统架构,该系统架构分为五个层次,分别是公共交易数据库层,同步数据层,数据清洗与整合层,公共数据库层,报表展现层。  相似文献   

16.
基于分布特征的异常成绩检测方法   总被引:1,自引:0,他引:1  
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了一种基于分布特征的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端.  相似文献   

17.
彭大为  史惠存 《江西科学》2020,38(2):252-256
随着计算机技术的不断发展,数据处理技术不断推陈出新,特别是大数据、分布式集群、云计算技术的发展使得数字水利开始向智慧水利转变。由数字水利向智慧水利转变的重要技术之一就是对水利大数据的处理,大数据处理是实现智慧的核心技术。一个完整的大数据处理工作流程大致包括数据收集与导入、数据清洗与质量控制、数据管理与存储、数据分析与可视化、数据建模与模型管理。主要对水利自动化实时流式大数据的处理提出了一种解决方法,该方法能够实现对水利自动化设备实时上报的高频流式大数据进行有效的处理。  相似文献   

18.
为了高效清洗具有时序性、周期性等特点的工业数据,首先利用分布式组件设计了一套流式清洗系统,系统以Mosquitto作为采集数据的汇集中心,以Flume为连接组件,以Kafka为缓冲组件,对接数据清洗组件,使系统具有高吞吐、大缓冲等优势。然后基于速度约束模型,设计了一种周期性数据清洗算法,综合工业数据的时序性、周期性、物理意义等特性,在原有速度约束算法基础上增加周期性检测和数据切片机制,以解决速度约束算法处理周期性数据的失真问题,提高可用度。最后文中以盾构掘进数据集为样本,验证了系统和算法的有效性,以及改进算法的适用性。  相似文献   

19.
为了提高企业生产力,实现“智慧钢厂”,对企业的海量生产数据信息进行有效挖掘,收集了某钢厂最近4年的高炉生产数据,利用箱型图进行数据清洗,提高数据质量.采取工艺理论和专家经验结合随机森林算法筛选出23个影响铁水质量和产量的特征参数.以铁水产量和铁水[Si+Ti]质量分数为目标参数,通过k-means聚类分析法将其分为3类.将分类结果与特征参数整合后进行分析,得到造成铁水产量和质量大范围波动的13个参数,同时提供了相应参数的合理控制范围.研究可对高炉稳定顺行以及数据挖掘在钢铁行业的应用提供指导.  相似文献   

20.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号