共查询到20条相似文献,搜索用时 109 毫秒
1.
数据仓库清洗技术讨论 总被引:4,自引:0,他引:4
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法. 相似文献
2.
考虑电网出现故障时,仅依靠开关量状态信息进行诊断,诊断信息冗余度低,复杂故障情况下会影响诊断结果的准确性.引入电气量信息,提出了模型预测和数据清洗方法,建立电网故障诊断系统.利用模型预测得到准确的电气量信息,建立清洗规则和逻辑推理规则,分别对开关量进行数据清洗和验证故障信息.在此基础上,利用溯因推理网络(abductive reasoning network,ARN)对故障信息进行诊断,得出候选故障.仿真结果验证了该方法的有效性和准确性. 相似文献
3.
基于规则的船舶分段动态空间调度方法 总被引:1,自引:0,他引:1
针对船舶分段建造调度问题的特点,提出基于规则的动态空间调度方法.该方法将作业计划安排与动态调整相结合而实现动态调度.利用相似性规则制定分段作业计划,对各种动态事件建立响应规则而实现动态调整.通过对分段加工过程中动态事件分析归类,针对不同动态事件的直接影响、调整措施和响应规则,以急件插入、任务取消和设备故障为例,给出调整实施过程.最后,利用仿真数据验证了该计划安排及其调整方法的可行性和实用性. 相似文献
4.
研究了使用纯水射流进行路面清洗时,影响路面清洗率的清洗参数.采用模糊数学方法建立了清洗率预测的数学模型,通过实验建立了用于预测清洗率的模糊规则库.通过规则推理,实现了在给定输入参数条件下,对清洗率的准确预测.经实验验证,预测误差小于5%. 相似文献
5.
一种基于聚类树的增量式数据清洗算法 总被引:2,自引:0,他引:2
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 . 相似文献
6.
《云南民族大学学报(自然科学版)》2020,(3)
数据清洗的主要任务是将数据中的脏数据检测出来并进行修正,提高数据质量,减小数据质量问题给数据应用带来的影响.由于流数据的特点是数据量大且增长快速,所以针对流数据的清洗研究除了要考虑到数据质量的提高,还需要考虑到数据体积的压缩以缩减成本.现有的方法不能很好的兼顾数据质量的提高和成本的缩减问题,因此在已有的研究基础上提出一种基于语义的轨迹流数据清洗方法——将裸数据转化为语义轨迹,同时将语义作为动态指标去除重复采样和修复异常数据.实验证明,该方法能有效地缩减数据体积以降低保存成本,同时数据的质量密度得到了明显的提高. 相似文献
7.
在对中文地址编码技术进行研究的基础上,把中文地址切分为地址要素和特征字,提出了中文地址清洗模型,制定了对中文地址要素的编码规则,并基于该编码规则设计了中文地址清洗算法,实验证明了该文方法具有较好的清洗效果. 相似文献
8.
《清华大学学报(自然科学版)》2018,(12)
数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。 相似文献
9.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形. 相似文献
10.
为有效地解决汽车混流装配线中多载量小车物料配送的动态调度问题,提出基于知识库和神经网络的调度方法.首先,对汽车装配线物料配送的动态调度问题进行描述,建立以装配线产量和多载量小车的物料搬运距离作为衡量指标的目标函数.然后通过Plant Simulation软件生成针对汽车混流装配线的仿真数据并对神经网络模型进行离线训练,在实时阶段利用神经网络模型和知识库实现多载量小车最优调度规则的选取.实验结果表明:所提出的调度规则选取方法选择的调度规则大多为最优调度规则,以较低的调度规则计算复杂性确保了调度的实时性能,能够很好地应对动态环境的变化,从而有效提升了多载量小车的动态调度水平. 相似文献
11.
当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后才可应用于劣质数据动态清理中,不仅效率低,且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法,劣质数据主要包括错误数据、重复数据和不完整数据,利用统计学求期望方法对错误进行清理,计算得到一个可信区间的基准范围,依据该基准范围对错误数据进行清理。利用编辑距离获取两个字符串之间的相似度,通过得到的相似度对重复数据进行动态清理。对嵌入式实时系统数据库中所有记录的不完整性进行评估,依据评估结果决定是否清除相应数据。实验结果表明,所提方法针对劣质数据有很高的清理准确性。 相似文献
12.
RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖掘数据间的潜在规律.实验表明,该类算法具有很好的可扩展性,有效地提高了数据清洗的准确率. 相似文献
13.
具有数据清理功能的交互式数据迁移及应用 总被引:7,自引:0,他引:7
针对众多论文对数据迁移的研究多是泛泛地介绍数据迁移的方法,而没有考虑数据迁移过程中的数据清理问题,提出了一种具有数据清理功能的交互式数据迁移技术.该技术把数据迁移和数据清理紧密地结合在一起,具有开放的规则库和算法库.通过在规则库中定义规则以及从算法库中选择合适的清理算法,不仅能灵活、准确地完成数据的迁移,还能保证数据迁移后新系统的数据质量.该技术被应用于医疗保险信息系统再工程项目,取得很好的效果,从而说明这种数据迁移技术在实践中是可行的. 相似文献
14.
15.
数据清理是KDD的首要步骤;没有好的数据环境,就不会有理想的挖掘结果.介绍了数据的一般特征,讨论了KDD中数据清理技术的清除空缺、噪声处理及不一致数据等问题,指出通用性和自适应性差是目前数据清理工具存在的主要问题. 相似文献
16.
针对电网中录波型故障指示器上传的海量故障数据存在着大量的重复、干扰、错误及无效波形,提出一种基于稀疏自编码(sparse auto-encoder,SAE)的故障数据聚类清洗方法,该方法首先利用稀疏自编码对故障数据进行特征学习与降维,继而用主成分分析(principal component analysis,PCA)对降维后数据再次进行降维提取,实现对不同故障数据的特征获取;最后利用基于密度峰快速搜寻聚类算法(clustering by fast search and find of density peaks,CFSFDP)对故障特征进行聚类,实现对重复、干扰、错误等故障数据的聚类清洗和真实故障数据推送.提出的海量故障数据聚类清洗方法,达到了对不同类型故障数据进行清洗去冗的效果,为故障告警智能推送提供了技术支撑,提高了运维人员获取准确故障信息的效率. 相似文献
17.
在XML数据清洗中,模式约束语言提供的信息不能满足准确数据清洗过程对于领域知识的需要;同时,传统的树编辑算法在对XML实例数据进行清洗时,由于缺乏对XML结构信息的语义描述,造成了大量的数据匹配错误.基于此,引入参考本体和领域本体分别对上述问题进行解决,给出了模式约束的度量指标和一个XML结构感知算法,并构建了一个基于语义的XML数据清洗框架. 相似文献
18.
针对船联网RFID数据流因存在冗余数据而影响工作效率的问题,在传统布隆过滤器数据清洗算法的基础上构建了矩阵型布隆过滤器模型,提出了一种改进的布隆过滤器RFID冗余数据清洗算法.实验结果表明,数据流越大,算法的数据清洗效果越明显. 相似文献
19.