首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
交互式数据迁移系统及其相似检测效率优化   总被引:7,自引:0,他引:7  
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度.此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性.  相似文献   

2.
为了实现数据的共享及数据价值发现,需要对数据进行迁移和清洗.数据迁移的效率和数据质量的好坏,直接影响到数据挖掘的效果和价值.本文对数据迁移与清洗的策略进行了研究,设计了数据迁移与数据清洗的流程和策略,通过寻求最优线程数,并行处理数据迁移与清洗,并将其应用到政务服务基础数据的处理上.在处理速度和数据质量上都有明显提升,同...  相似文献   

3.
数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移。  相似文献   

4.
针对数据迁移中ETL技术的实现问题,指出可以通过构造输入数据库和中间数据库,利用Datastage工具和PL/SQL程序相结合的方式进行数据迁移.给出了Datastage工具的应用策略和PL/SQL程序实现ETL过程的具体流程.实践表明该方案数据迁移速度较快,能够较好地完成海量数据的迁移任务.  相似文献   

5.
数据清理在数据仓库与数据挖掘中有着重要而广泛的应用。作者论述了数据清理的基本概念、作用和方法。  相似文献   

6.
数据清理是KDD的首要步骤;没有好的数据环境,就不会有理想的挖掘结果.介绍了数据的一般特征,讨论了KDD中数据清理技术的清除空缺、噪声处理及不一致数据等问题,指出通用性和自适应性差是目前数据清理工具存在的主要问题.  相似文献   

7.
数据清理是KDD的首要步骤;没有好的数据环境,就不会有理想的挖掘结果.介绍了数据的一般特征,讨论了KDD中数据清理技术的清除空缺、噪声处理及不一致数据等问题,指出通用性和自适应性差是目前数据清理工具存在的主要问题.  相似文献   

8.
针对统一存储网数据安全的需要,根据ServerFree存储设备点到点相互直接备份数据的解决方案,利用网络通信和分级存储技术,分别建立起数据迁移源端和迁移目的端.这两端是相互独立的,各自包括一个主线程和一个处理子线程,其中主线程负责初始化、监听端口连接请求和创建处理子线程,而处理子线程则负责处理命令请求和传输数据等.通过让备份的数据在存储设备间进行直接传输,可以解脱备份对LAN的影响,使得服务器在备份命令提交后不必再进行数据的读写控制,释放了服务器的CPU周期,提高了传输速度,从而实现了一个新的基于统一存储网的数据迁移系统.测试表明,在相同的网络环境下对同等大小的数据进行传输,采用统一存储网数据迁移系统的数据传输速度比采用samba技术的数据传输速度快20%.  相似文献   

9.
为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段之间的层次语义和依赖关系;将语义引入到优先队列算法中,提出了改进的优先队列法(IPQM),在计算记录之间的相似度时,显式考虑字段之间的层次语义关系,对不同的字段类型调用不同的相似度计算方法.同时将语义规则库引入到数据清理框架,在预处理阶段利用语义来处理等价类型错误,在处理阶段利用IPQM来计算记录之间的相似度.实验结果表明该框架提高了数据清理的质量,遗漏率低于7%,误判率不超过3%.  相似文献   

10.
随着医院信息化的不断发展,应用负荷的不断增加,服务器超出正常负载能力,医院将面临服务器升级的问题.数据迁移是服务器升级过程中最重要的环节.数据迁移过程中一定要保证数据安全、无损、完整地从旧数据库服务器迁移到新的数据库服务器上.我们了解的传统系统升级和服务器升级的数据迁移操作,采用的是在业务系统完全停用的状态下,对系统历史数据进行迁移.这种数据迁移方式虽可保障数据库上的所有数据进行有效、安全、完整的迁移,但系统停用对于整个医院医疗活动的影响很大,如何能实现将旧数据库服务器上的所有历史数据转换到新的数据库服务器上,并且在数据迁移的过程中,不停用业务核心部门的系统应用.本文就广东省妇幼保健院HIS服务器升级过程中实现不停用业务核心部门的系统应用情况下对数据迁移的安全保障实践作一讨论.  相似文献   

11.
当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后才可应用于劣质数据动态清理中,不仅效率低,且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法,劣质数据主要包括错误数据、重复数据和不完整数据,利用统计学求期望方法对错误进行清理,计算得到一个可信区间的基准范围,依据该基准范围对错误数据进行清理。利用编辑距离获取两个字符串之间的相似度,通过得到的相似度对重复数据进行动态清理。对嵌入式实时系统数据库中所有记录的不完整性进行评估,依据评估结果决定是否清除相应数据。实验结果表明,所提方法针对劣质数据有很高的清理准确性。  相似文献   

12.
数据挖掘或数据分析在生物医学中与其他调查领域不同,因为在生物医学领域这些数据很复杂,他们资源不同,且每一个医师对同一个诊断记录都有他们自己的解释.分析医疗数据的特征,研究数据的清洗,目的是为了挖掘有价值的知识.实验显示,所提出的方法比朴素贝叶斯网络模式更有效.  相似文献   

13.
针对风力机异常功率数据难以有效清洗的问题,提出改进的DBSCAN方法.首先将数据集离散分割,然后在各离散区间内自适应粗估DBSCNA算法参数并聚类,最后计算统计特征相似性修正聚类结果.以某风场2.5 MW风力机SCADA系统实测数据验证所提方法,结果表明:改进方法的召回率为97.97%,准确率为97.97%,F1值可达97.85%,可有效清洗风力机功率数据集,且变更数据集时改进方法结果更稳定.  相似文献   

14.
数据清洗是提高数据集成质量的一个重要手段. 提出了一种基于动态规则的数据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗两者结合起来,强化清洗的描述能力. 实际应用表明,AzszpClean方法可以完成硬编码的功能,具有更高的实现效率.  相似文献   

15.
目的研究当信息系统在数据结构、数据或数据库管理系统改变时数据自动迁移的方法和技术。方法提出一种通用的数据迁移新方法,并设计了通用数据导出格式。结果对于正在开发的信息系统和试运行的信息系统能够在保留现有数据的前提下自如地修改数据结构,对于成型的信息系统可自动生成数据结构和数据的迁移。结论所提出的方法在多个信息系统的开发中被证明是实用和有效的。  相似文献   

16.
斜井井眼净化模型及其应用研究   总被引:1,自引:0,他引:1  
井眼净化始终是斜井钻井中的关键问题之一.为了使现场的工程技术人员较准确地确定井眼清洗水力参数和施工参数,达到指导实际工程的目的,从实用的思想出发,以井斜角不同岩屑的运移机理和井眼清洗要求不同为依据,将整个井眼按井斜角的不同划分为多个井段,分段建立了能进行工程实际计算的井眼净化模型,并开发了相应的应用软件.该软件能依据给定的井眼条件和施工参数,预测是否能满足井眼净化要求;或从满足井眼净化的需求出发,给出合理的施工参数.  相似文献   

17.
利用傅里叶变换及内插外推方法对三维大地电磁资料偏移成像问题进行了研究。首先将大地电磁场满足的三维亥姆霍兹方程降维分裂成两个二维响应方程,然后对每一个二维方程进行傅里叶变换,使二维方程变为一维方程,通过大地电磁场垂向方向的导数在地面上所满足的边界条件,确定外推方程中的两个待定系数,从而得到一维外推方程的解。对横向非均匀地电介质,利用分段傅里叶变换方法进行偏移,同时将每一段内电阻率的平均值作为背景值。为了解决纵向介质的不连续问题,取相邻两频点的电阻率值的外推结果进行加权内插。对于横向各段的衔接,采用内插平滑处理。应用该方法对伊朗项目中T01-010测线资料进行了偏移处理,偏移结果除了反映浅层和基底明显的分界面之外,还能较好地反映局部地电异常体引起的异常。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号