首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
介绍了开发基于JESS的智能数据清洗平台所涉及的解决了大庆某采油厂数据清洗问题.  相似文献   

2.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

3.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

4.
为了实现数据的共享及数据价值发现,需要对数据进行迁移和清洗.数据迁移的效率和数据质量的好坏,直接影响到数据挖掘的效果和价值.本文对数据迁移与清洗的策略进行了研究,设计了数据迁移与数据清洗的流程和策略,通过寻求最优线程数,并行处理数据迁移与清洗,并将其应用到政务服务基础数据的处理上.在处理速度和数据质量上都有明显提升,同...  相似文献   

5.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

6.
基于模糊匹配的数据清洗   总被引:2,自引:0,他引:2  
提出了一种新的模糊匹配相似度函数及一种高效的模糊匹配算法,该算法能够高效的寻找与输入元组最相似的L个参考元组;为了提高查询效率,提出了对参照关系建立错误容错索引。  相似文献   

7.
针对风力机异常功率数据难以有效清洗的问题,提出改进的DBSCAN方法.首先将数据集离散分割,然后在各离散区间内自适应粗估DBSCNA算法参数并聚类,最后计算统计特征相似性修正聚类结果.以某风场2.5 MW风力机SCADA系统实测数据验证所提方法,结果表明:改进方法的召回率为97.97%,准确率为97.97%,F1值可达97.85%,可有效清洗风力机功率数据集,且变更数据集时改进方法结果更稳定.  相似文献   

8.
基于RFID应用的综合性数据清洗策略   总被引:2,自引:1,他引:1  
RFID应用中会产生大量不可靠性数据、冗余数据和时间戳乱序数据,而现有的RFID数据清洗技术主要关注单一的错误数据类型,不适合于复杂的应用环境.针对这个问题提出了一种综合性的数据清洗机制来保证RFID数据的准确性、精简性和时序性.该机制由局部过滤器和全局过滤器组成,局部过滤器处理单个阅读器接收的数据,通过时间延迟对数据按时间戳排序,并根据RFID数据流的分布情况设定不同的约束条件删除多读数据;而全局过滤器处理多个阅读器接收的数据,通过考虑标签数据的时空关联性填补漏读数据和删除多读数据,并设定约束条件删除冗余数据.实验证明了该机制可以适应不同流的分布情况,有效地对各种脏数据进行修正.  相似文献   

9.
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重.研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势.  相似文献   

10.
结构化数据到XML数据的语义映射   总被引:6,自引:0,他引:6  
XML的DTD机制不足以表现结构化数据的语义,本文在路径约束的基础上,提出一种新的语义映射机制,引入域的概念描述结构化数据到XML数据的结构映射,将结构化数据的平面结构映射为XML数据的树状结构,通过有域层次的键规则表达式,将结构化数据中分散在各表中的键的定义映射到XML数据中,利用域的概念和模板匹配的原理,引入域关系表达式及其扩展表达式来实现结构化数据以XML数据的语义映射,由此构成的语义映射机制可以和XML数据的模式抽取很好的集成在一起,体现数据的语义约束并为数据库对XML数据存储和查询的优化提供有效信息。  相似文献   

11.
数据清洗技术研究   总被引:1,自引:0,他引:1  
概括介绍了各种文献中对数据清洗技术-的描述和定义,并简要介绍了几种能自动识别数据集中潜在错误的异常检测的方法,给出了在现实数据集中进行实验的结果,讨论了数据清洗问题未来的研究方向。  相似文献   

12.
为了对数据质量维度有一个全面、清析而准确的定义,便于在领域层面达成一致,也为从现存的数据质量管控技术架构中选择出合适的框架提供依据,对数据质量的发展历程和维度以及其管控框架进行了全面的研究。通过研究明确了复杂的数据质量维度指标,按其名称和定义提供一套比较全面的数据质量规范,并对其质量管控技术框架进行了综合研究与对比。该研究能科学地指导具体应用需求选择合适的数据质量框架和比较全面的数据质量维度实现对数据的评估,同时可节省大量的时间,减少人力和物力支出。  相似文献   

13.
为了高效清洗具有时序性、周期性等特点的工业数据,首先利用分布式组件设计了一套流式清洗系统,系统以Mosquitto作为采集数据的汇集中心,以Flume为连接组件,以Kafka为缓冲组件,对接数据清洗组件,使系统具有高吞吐、大缓冲等优势。然后基于速度约束模型,设计了一种周期性数据清洗算法,综合工业数据的时序性、周期性、物理意义等特性,在原有速度约束算法基础上增加周期性检测和数据切片机制,以解决速度约束算法处理周期性数据的失真问题,提高可用度。最后文中以盾构掘进数据集为样本,验证了系统和算法的有效性,以及改进算法的适用性。  相似文献   

14.
RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖掘数据间的潜在规律.实验表明,该类算法具有很好的可扩展性,有效地提高了数据清洗的准确率.  相似文献   

15.
Extensible Markup Language即"可扩展的标置语言"(简记为XML)的出现,为基于Web的数据挖掘带来了便利,开发人员能够用XML的格式标记交换数据。充分利用XML的优点,提供一种利用决策树ID3修正算法和聚类的方法,对XML文档信息进行挖掘,并结合实例说明这种方法。  相似文献   

16.
郑华 《广西科学院学报》2010,26(4):483-485,492
为了从源头解决数据质量问题,实现数据的可溯源,设计一个基于数据世系的数据质量评估系统框架。该系统框架可以动态添加各种不同的评估方法,通过数据世系技术分析出数据的原始演化过程进而识别出其维度,再选择系统中合适的评估方法实现数据质量评估。  相似文献   

17.
 当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理.尽管数据质量管理方面已经有一些研究成果,但由于大数据具有规模大、速度快和多样性高的特点,现有的方法难以适用于大数据质量管理.本文针对错误发现、错误修复和劣质数据查询处理,综述了大数据质量管理的问题与挑战,认为大数据质量管理的挑战主要有计算困难、错误混杂和缺少知识3 个方面.本文依据这3 个方面的解决方法,对大数据质量管理目前的研究进展进行了综述,并展望了大数据质量管理未来的研究方向.  相似文献   

18.
XML与VFP的数据交换模式   总被引:1,自引:0,他引:1  
把信息资源放在互联网上,让所有的网络用户共享,这是网络的主要应用之一,目前作为基于3W的网络浏览器,并不能够完全识别以各种形式表达的信息,它涉及到数据格式的转换,利用转换作为桥梁建立了一个线形关系来实现XML和VFP的数据转换。  相似文献   

19.
针对船联网RFID数据流因存在冗余数据而影响工作效率的问题,在传统布隆过滤器数据清洗算法的基础上构建了矩阵型布隆过滤器模型,提出了一种改进的布隆过滤器RFID冗余数据清洗算法.实验结果表明,数据流越大,算法的数据清洗效果越明显.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号