首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
ETL是指数据抽取(extract)、转换(transform)、装载(load)的过程,是数据仓库构建过程中的核心环节和技术难点.基于水厂数据仓库系统,研究了如何运用ETL技术实现水厂数据仓库中数据的抽取、转换和装载.  相似文献   

2.
任秀月 《海峡科学》2008,(6):14-15,21
信息集成是环境数据中心建设过程中最重要的环节.信息集成包括数据的抽取(Extract)、转换(Transform)、装载(Load)三个过程.传统的信息集成模式中,数据抽取对业务系统影响较大,数据转换不易扩展,数据装载一直是系统的性能瓶颈.该文提出了基于元数据的信息集成模式,通过增加中间数据层,减少了对业务系统的压力,提升了数据装载的效率,同时利用元数据对信息集成过程和规则进行配置,提高了信息集成的可扩展性.  相似文献   

3.
白果  贾玉文 《甘肃科技》2012,28(19):18-20
ETL是数据仓库构建中的核心环节,通过对传统的ETL架构体系的介绍,从数据抽取、数据转换等方面对ETL过程进行了改进,让数据转换环节在数据抽取和数据清洗加载的过程中同时进行,并增加了一个临时存储区,以此来缓解在数据抽取和转换过程中由于数据量太大或过于复杂而引起的数据拥堵和冗余的现象。通过改进后的ETL系统,可以提高整个数据仓库运行的效率,大大改善运行速度,提高了数据仓库的数据质量。  相似文献   

4.
一种通用的多数据库间数据抽取方法及应用   总被引:4,自引:0,他引:4  
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作.  相似文献   

5.
以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数据分别给出清洗的业务规则,使用SQL Server的DTS工具予以实现并上线使用。  相似文献   

6.
本文讨论了VAX Rdb/VMS数据库数据装载和异质数据库数据转换工具的设计思想和实现技术,并给出了程序设计流程。实践结果表明,转换工具界面友好,灵活多变,具有实用性和通用性。  相似文献   

7.
针对电信运营分析系统的特殊要求,仔细分析了系统的数据源情况和数据转换要求,设计并实现了一个能够完成经营分析系统数据抽取转换工具.  相似文献   

8.
数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移。  相似文献   

9.
目前市场上有很多股票交易软件,这些软件会根据股票交易的实际情况定期产生股票交易信息数据,并将这些信息数据写入二进制格式的文件中,如DAY文件等.由于这些文件不是文本文件,无法直接使用常规的文件读写进行数据的抽取,而必须设计一种数据抽取算法完成相应操作.对DAY文件进行了分析和研究,在此基础上设计了一种数据抽取算法,并利用JAVA语言实现了数据抽取算法程序,利用该程序完成了从DAY文件中抽取数据并写入数据库的实验.实验结果表明,该程序能够正确地从DAY文件中抽取数据,为后期的股票信息处理和数据挖掘提供了重要的基础.  相似文献   

10.
数据清洗前的预处理方法   总被引:2,自引:0,他引:2  
为提高数据清洗的质量,提出消除脏数据域、使用统一的缩写、数据的转换等预处理方法,基于这3种方法和链表存储复制记录算法,设计一个数据清洗的系统,与其他方法的效率与准确程度比较可知,该系统的数据准确程度要高于现有的数据清洗系统.  相似文献   

11.
对污染源普查原始数据的二次开发利用途径包括:进行数据抽取、转换和装载,建立重点污染源档案和普查数据库;对数据进行分析、加工、处理和深度挖掘;完成基于普查大类、分行业、分地区、分流域、分规模为基础的主要污染物指标普查汇总数据信息发布平台。  相似文献   

12.
为了高效清洗具有时序性、周期性等特点的工业数据,首先利用分布式组件设计了一套流式清洗系统,系统以Mosquitto作为采集数据的汇集中心,以Flume为连接组件,以Kafka为缓冲组件,对接数据清洗组件,使系统具有高吞吐、大缓冲等优势。然后基于速度约束模型,设计了一种周期性数据清洗算法,综合工业数据的时序性、周期性、物理意义等特性,在原有速度约束算法基础上增加周期性检测和数据切片机制,以解决速度约束算法处理周期性数据的失真问题,提高可用度。最后文中以盾构掘进数据集为样本,验证了系统和算法的有效性,以及改进算法的适用性。  相似文献   

13.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

14.
数据挖掘需要有"纯净"的数据和良好的数据组织,数据的质量直接影响到数据挖掘的效果,数据仓库从各类数据源中抽取数据,经过清洗、集成、选择、转换处理,为数据挖掘所需要的高质量数据提供了保证.本文提出以数据仓库为数据源,采用作业定时预先生成简化的频繁2.项集,应用存储过程执行效率高的特点,在压缩数据库大小的同时也压缩频繁i项集的大小,实现高效改进Apriori算法.  相似文献   

15.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

16.
数据清洗是提高数据集成质量的一个重要手段. 提出了一种基于动态规则的数据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗两者结合起来,强化清洗的描述能力. 实际应用表明,AzszpClean方法可以完成硬编码的功能,具有更高的实现效率.  相似文献   

17.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min.  相似文献   

18.
基于Web Services的数据采集   总被引:1,自引:0,他引:1  
以异构的、自治的、分布的数据库系统构建数据仓库是个挑战, 必须解决两个问题:一是采取有效的措施从各分布的异构数据源采集数据,二是对收集来的数据进行清理和格式转换.笔者分析了Web services的开放性和互操作性,提出了以SOAP协议和HTTP协议连接Internet的异构数据源,实现基于Web Services的数据采集系统.基于组件技术,提出了一种通用的数据采集器结构,用于数据清理和数据转换.并探讨了数据采集器以XML方式实现数据转换和数据装载的核心技术.  相似文献   

19.
浅谈数据集成相关技术   总被引:1,自引:0,他引:1  
随着信息化的普及、推广及建设,更多的信息系统投入使用,一方面提高了工作效率、带来了经济社会效益,但另一方面因为信息系统独立、数据源分布异构等原因形成了越来越多的"信息孤岛"现象,为了解决"信息孤岛"问题,数据集成成为一种重要的解决方法。数据集成技术目前已成为社会研究和讨论的热点领域,数据集成的好与坏直接影响信息化建设速度。该文首先阐述了数据集成的产生及作用,其次介绍了一种通用的数据集成模型框架,基于此模型框架从数据质量的角度对ETL(Extraction数据抽取、Transformation数据转换、Loading数据加载)及数据清洗等关键技术进行了研究和介绍,对数据集成的普及和推广有指导意义。  相似文献   

20.
智慧实验室是智慧校园建设的重要组成部分,是解决当前高校因实验设备更新快,设备使用率高而带来的管理难度加大、管理人员紧缺的主要途径。结合本校招生规模扩大,实验设备种类繁多、数量庞大,实验室使用率高、实验室管理人员不足的实际情况,搭载智慧校园建设的快车,利用大数据技术,从基础数据、业务数据、设计数据三个层面对高校实验室开展数据抽取、清洗、转换、挖掘和加载等工作。以此为数据输入端,基于客户机/服务器模式分布式存储服务,对平台底层存储设备进行统一的管理,设计面向实验室资产管理、运维管理、教学管理、实验管理等全要素的智慧实验管理平台,技术实现阿里云服务器API短信接口,设置短信签名与短信模板实现实验室资产的全生命期管理和对实验教学资源的科学调配。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号