共查询到20条相似文献,搜索用时 984 毫秒
1.
为了实现数据的共享及数据价值发现,需要对数据进行迁移和清洗.数据迁移的效率和数据质量的好坏,直接影响到数据挖掘的效果和价值.本文对数据迁移与清洗的策略进行了研究,设计了数据迁移与数据清洗的流程和策略,通过寻求最优线程数,并行处理数据迁移与清洗,并将其应用到政务服务基础数据的处理上.在处理速度和数据质量上都有明显提升,同... 相似文献
2.
ETL 工具从异构数据泺抽取数据,并将数据清洗,规范化后装载到数据仓库.文章从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案.提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出成绩管理模块的具体实施步骤. 相似文献
3.
DB-ODS-DW三层体系结构满足了信息处理的多层次需求,ODS在其中承担了重要的角色,为了提高ODS中的数据质量,进入到ODS环境中的数据必须经过清洗.在给出ETL过程中数据清洗模型的基础上,针对已知和未知的错误类型,以及语义上的错误,提出了一种自动清洗和人为清洗相混合的数据清洗策略,具有较好的现实意义。 相似文献
4.
5.
为了高效清洗具有时序性、周期性等特点的工业数据,首先利用分布式组件设计了一套流式清洗系统,系统以Mosquitto作为采集数据的汇集中心,以Flume为连接组件,以Kafka为缓冲组件,对接数据清洗组件,使系统具有高吞吐、大缓冲等优势。然后基于速度约束模型,设计了一种周期性数据清洗算法,综合工业数据的时序性、周期性、物理意义等特性,在原有速度约束算法基础上增加周期性检测和数据切片机制,以解决速度约束算法处理周期性数据的失真问题,提高可用度。最后文中以盾构掘进数据集为样本,验证了系统和算法的有效性,以及改进算法的适用性。 相似文献
6.
数据清洗是提高数据集成质量的一个重要手段. 提出了一种基于动态规则的数据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗两者结合起来,强化清洗的描述能力. 实际应用表明,AzszpClean方法可以完成硬编码的功能,具有更高的实现效率. 相似文献
7.
在XML数据清洗中,模式约束语言提供的信息不能满足准确数据清洗过程对于领域知识的需要;同时,传统的树编辑算法在对XML实例数据进行清洗时,由于缺乏对XML结构信息的语义描述,造成了大量的数据匹配错误.基于此,引入参考本体和领域本体分别对上述问题进行解决,给出了模式约束的度量指标和一个XML结构感知算法,并构建了一个基于语义的XML数据清洗框架. 相似文献
8.
9.
数据仓库清洗技术讨论 总被引:4,自引:0,他引:4
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法. 相似文献
10.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min. 相似文献
11.
针对船联网RFID数据流因存在冗余数据而影响工作效率的问题,在传统布隆过滤器数据清洗算法的基础上构建了矩阵型布隆过滤器模型,提出了一种改进的布隆过滤器RFID冗余数据清洗算法.实验结果表明,数据流越大,算法的数据清洗效果越明显. 相似文献
12.
针对测井和试井资料中存在数据质量的问题,提出了一种基于聚类分析和神经网络预测技术的数据清洗新方法。该方法首先检测测试井数据中存在空缺项的记录数据,对无空缺数据项的记录数据采用模糊聚类分析技术进行数据分类,再对各类数据分别进行蚁群聚类分析和神经网络学习并矫正噪声数据。将该数据清洗方法运用到试井分析中进行检验,取得了良好的效果。为提高测试井数据质量进行正确的解释评价提供了保证。 相似文献
13.
RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖掘数据间的潜在规律.实验表明,该类算法具有很好的可扩展性,有效地提高了数据清洗的准确率. 相似文献
14.
15.
在风电功率预测中,风速到风电功率的转换是关键步骤,风功率曲线建模和机器学习等技术都需要高质量的风电功率数据,而风电机组实际运行过程中由于多种因素会导致风功率曲线中出现大量的异常数据.首先分析了河南省洛阳市虎头山风电场风电机组历史运行异常数据分布特征,提出了结合孤立森林(iForest)算法与标准差(σ)检测法的技术对异常数据进行识别,并对比了iForest-σ和σ-iForest两种次序组合方式在异常数据识别过程中的异常数据清洗时间、删除率、准确率.结果表明,iForest-σ和σ-iForest方法都能够有效识别异常数据,iForest-σ方法相对数据删除率低且精度高.上述方法清洗效果好,效率高且不依赖于正常数据进行非监督训练,同时适用于其他研究场景的异常数据清洗工作,具有较强的通用性. 相似文献
16.
基于RFID应用的综合性数据清洗策略 总被引:2,自引:1,他引:1
RFID应用中会产生大量不可靠性数据、冗余数据和时间戳乱序数据,而现有的RFID数据清洗技术主要关注单一的错误数据类型,不适合于复杂的应用环境.针对这个问题提出了一种综合性的数据清洗机制来保证RFID数据的准确性、精简性和时序性.该机制由局部过滤器和全局过滤器组成,局部过滤器处理单个阅读器接收的数据,通过时间延迟对数据按时间戳排序,并根据RFID数据流的分布情况设定不同的约束条件删除多读数据;而全局过滤器处理多个阅读器接收的数据,通过考虑标签数据的时空关联性填补漏读数据和删除多读数据,并设定约束条件删除冗余数据.实验证明了该机制可以适应不同流的分布情况,有效地对各种脏数据进行修正. 相似文献
17.
魏春光 《中国人民公安大学学报(自然科学版)》2009,15(2):34-36
公安综合指挥中心建设是公安信息化建设的重要内容,通过统一数据平台技术,可以实现各子系统在数据层面的松耦合,达到最大限度的数据共享。统一数据平台奠基于数据库技术基础之上,涉及数据库建模、数据同步、数据清洗等关键技术,是公安综合指挥中心建设新的发展方向。 相似文献
18.
针对电网中录波型故障指示器上传的海量故障数据存在着大量的重复、干扰、错误及无效波形,提出一种基于稀疏自编码(sparse auto-encoder,SAE)的故障数据聚类清洗方法,该方法首先利用稀疏自编码对故障数据进行特征学习与降维,继而用主成分分析(principal component analysis,PCA)对降维后数据再次进行降维提取,实现对不同故障数据的特征获取;最后利用基于密度峰快速搜寻聚类算法(clustering by fast search and find of density peaks,CFSFDP)对故障特征进行聚类,实现对重复、干扰、错误等故障数据的聚类清洗和真实故障数据推送.提出的海量故障数据聚类清洗方法,达到了对不同类型故障数据进行清洗去冗的效果,为故障告警智能推送提供了技术支撑,提高了运维人员获取准确故障信息的效率. 相似文献
19.
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端. 相似文献
20.
数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败.数据质量存在问题有多方面的原因,在此基础上提出了实施数据清洗的五个步骤,最后阐述了提高数据质量的方法. 相似文献