首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

2.
数据清洗技术研究   总被引:1,自引:0,他引:1  
概括介绍了各种文献中对数据清洗技术-的描述和定义,并简要介绍了几种能自动识别数据集中潜在错误的异常检测的方法,给出了在现实数据集中进行实验的结果,讨论了数据清洗问题未来的研究方向。  相似文献   

3.
在XML数据清洗中,模式约束语言提供的信息不能满足准确数据清洗过程对于领域知识的需要;同时,传统的树编辑算法在对XML实例数据进行清洗时,由于缺乏对XML结构信息的语义描述,造成了大量的数据匹配错误.基于此,引入参考本体和领域本体分别对上述问题进行解决,给出了模式约束的度量指标和一个XML结构感知算法,并构建了一个基于语义的XML数据清洗框架.  相似文献   

4.
液晶显示器行业目前一般采用ODS溶剂清洗.对一种新型水基替代ODS清洗技术进行了研究。利用X射线光电子谱的测试方法,比较用两种清洗技术清洗过的样品,结果表明,新型替代清洗技术优于传统ODS清洗技术.  相似文献   

5.
精密金属零件非ODS清洗技术研究   总被引:1,自引:1,他引:0  
由于精密金属零件表面洁净度要求很高,目前一般采用ODS溶剂清洗.介绍了一种非ODS清洗技术,并利用X射线光电子谱等测试方法,分别比较用两种清洗技术清洗过的金属零件表面,结果表明新型清洗技术优于传统ODS清洗技术.  相似文献   

6.
基于D-S证据理论的不确定数据清洗   总被引:1,自引:0,他引:1  
数据清洗的任务是检测数据中存在的错误、缺失或不一致,通过删除、填充、修改等方法提高数据质量.针对存在元组级不确定性的数据表上的选择投影连接操作,基于D-S证据理论中置信区间的概念,给出辨识框架构建和置信区间计算的方法,提出了一种基于待测数据项置信区间来检测查询结果中错误数据的方法.实验结果表明,提出的不确定数据错误检测方法具有高效性、准确性和可用性.  相似文献   

7.
孙睿藻  魏璐 《河南科学》2023,(3):313-320
在风电功率预测中,风速到风电功率的转换是关键步骤,风功率曲线建模和机器学习等技术都需要高质量的风电功率数据,而风电机组实际运行过程中由于多种因素会导致风功率曲线中出现大量的异常数据.首先分析了河南省洛阳市虎头山风电场风电机组历史运行异常数据分布特征,提出了结合孤立森林(iForest)算法与标准差(σ)检测法的技术对异常数据进行识别,并对比了iForest-σ和σ-iForest两种次序组合方式在异常数据识别过程中的异常数据清洗时间、删除率、准确率.结果表明,iForest-σ和σ-iForest方法都能够有效识别异常数据,iForest-σ方法相对数据删除率低且精度高.上述方法清洗效果好,效率高且不依赖于正常数据进行非监督训练,同时适用于其他研究场景的异常数据清洗工作,具有较强的通用性.  相似文献   

8.
OD6是整个数据仓库体系架构中一个重要的组件。针对是否在数据仓库体系中选择ODS以及选择什么类型的ODS这一业界的难点问题。从数据更新以及反馈的角度列举了ODS的三种类型,详细的分析了各种类型的ODS的特点,阐述了每种类型的ODS可以满足什么商业需求,并结合零售业的案例具体分析。  相似文献   

9.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

10.
为了实现数据的共享及数据价值发现,需要对数据进行迁移和清洗.数据迁移的效率和数据质量的好坏,直接影响到数据挖掘的效果和价值.本文对数据迁移与清洗的策略进行了研究,设计了数据迁移与数据清洗的流程和策略,通过寻求最优线程数,并行处理数据迁移与清洗,并将其应用到政务服务基础数据的处理上.在处理速度和数据质量上都有明显提升,同...  相似文献   

11.
通过监控公安业务系统日志, 从业务系统日志中实时抽取细节数据到操作数据存储, 实现操作数据存储与业务系统的秒级实时同步, 建立基于“日志 操作数据存储 数据仓库”三层体系结构的公安数据仓库, 基于即时在线联机分析查询、 操作数据存储的多维数据集动态更新和数据集市的多维数据集, 提供即时在线联机分析服务. 实验结果表明, 该动态数据仓库能够提供实时警情决策分析, 并且具有对业务系统负荷小、 实时性强、 访问效率高等特点, 较好地满足了公安系统对实时性的要求.  相似文献   

12.
数据清洗前的预处理方法   总被引:2,自引:0,他引:2  
为提高数据清洗的质量,提出消除脏数据域、使用统一的缩写、数据的转换等预处理方法,基于这3种方法和链表存储复制记录算法,设计一个数据清洗的系统,与其他方法的效率与准确程度比较可知,该系统的数据准确程度要高于现有的数据清洗系统.  相似文献   

13.
介绍了业务数据商店 (ODS)的概念 ,对数据库、业务数据商店和数据仓库三者的技术特点进行了比较分析 ,给出了面向应用的ODS分类结构以及在应用中所要注意的问题 ,并对业务数据商店系统设计的关键技术进行了分析研究  相似文献   

14.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

15.
随着信息技术快速的发展与信息系统应用的加深,企业积累了大量的历史数据,支撑企业正常运营与决策。为了使决策更加正确、有效,需要对历史数据进行有效的数据质量评估,并基于评估结果进行数据清洗。重点研究了基于数据维度下数据质量约束的数据质量评估方法,确定数据质量评估维度,并定义了各维度下的数据质量约束,并基于约束给出数据质量评估算法。方法在大庆油田生产数据库数据质量评估项目与河北汉光重工有限责任公司财务系统数据库数据质量评估项目中得到了应用。  相似文献   

16.
提出了一个新颖的数据流监测系统RealMon的设计和实现。该系统能够在大量的网络流量数据中通过分析不同数据流之间的关联关系及时地检测出数据异常。通过应用数据流挖掘算法,该系统能够对电信骨干网络的SNMP流量数据进行监测。同时为了解决所采集SNMP数据中存在着的大量数据质量问题,该系统集成了数据流清洗算法,该算法能够实时处理SNMP数据来提高所采集数据的质量。在模拟环境中的测试表明,该系统能够在SNMP数据流上同时对数千条链路进行有效监测。  相似文献   

17.
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端.  相似文献   

18.
数据仓库中数据抽取、转换及加载工具研究   总被引:7,自引:0,他引:7  
分析数据仓库体系结构,描述数据加载过程中的不同实现方法.在实现过程中引入工作流的思想,提出了一种以工作流为模式的基于元数据的ETL模型,将数据加载分解成可配制的具有不同语义的过程,并给出了相关元素的定义,提供了一个可配置的具有良好伸缩性的ETL解决方案。  相似文献   

19.
为有效剔除工业现场采集数据中的显著误差,降低随机误差的影响,使校正后的数据更好的满足物料平衡和能量平衡,最大程度提高软测量模型的精度,提出一种基于同步算法的数据协调方法,并对双酚A生产工艺现场采集到的数据进行校正。仿真表明,校正后的数据误差率得到显著降低,提高了数据源的精度和模型的泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号