首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 490 毫秒
1.
将数据的抽取转换加载(ETL)过程和工作流技术结合起来,研究了ETL过程的工作流调度问题,设计了一种简单串行和稳定可靠的循环遍历算法.为了提高ETL效率,将并行机制引入到节点访问算法中,对节点访问算法进行了改进,设计了新的节点访问算法,并讨论了加入并行机制后可能会遇到的数据源并发控制等问题,并给出了解决方法.所提出的方法对提高数据集成效率很有效,在国产数据库系统的应用中可起到积极推动作用.  相似文献   

2.
针对金融系统数据的特点,基于ETL基本原理,结合工作流调度引擎,设计开发了具有结构化数据和半结构化数据处理能力的ETL(Extract Transfer move and Loading)处理平台——SETL(SMART ETL)智能化ETL处理平台。  相似文献   

3.
为解决多维数据模型与关系数据模型之间的双向数据系统查询、数据清洗、数据转换、实现集中和分发数据的准确性与一致性等问题,通过对概念格的相关研究,将全局数据挖掘与局部数据挖掘相结合,提出一种改进的基于局部信息的全局概念格的数据挖掘算法,并将挖掘过程分解为ETL(Extraction-Transformation-Loading)动作,结合ETL处理工作流,实现并行分布式海量数据的时序挖掘。实验证明,该算法对增强数据加工能力具有一定的实用性。  相似文献   

4.
董会国 《科技信息》2009,(34):196-197
论文阐述了商业智能(Business Intelligence)在创建数据仓库过程中的重要地位,首先介绍了BI的工作原理和ETL具体步骤,剖析了ETL的整个流程和ETL技术在企业决策支持系统中的作用;重点分析了Microsoft SQL Server 2005 Integration Services(SSIS)用于生成高性能数据集成和工作流解决方案的平台。  相似文献   

5.
白果  贾玉文 《甘肃科技》2012,28(19):18-20
ETL是数据仓库构建中的核心环节,通过对传统的ETL架构体系的介绍,从数据抽取、数据转换等方面对ETL过程进行了改进,让数据转换环节在数据抽取和数据清洗加载的过程中同时进行,并增加了一个临时存储区,以此来缓解在数据抽取和转换过程中由于数据量太大或过于复杂而引起的数据拥堵和冗余的现象。通过改进后的ETL系统,可以提高整个数据仓库运行的效率,大大改善运行速度,提高了数据仓库的数据质量。  相似文献   

6.
基于元数据的ETL工具设计与实现   总被引:7,自引:0,他引:7  
通过分析ETL与元数据的关系,改进传统ETL构架,自行设计ETL工具,生成数据对象描述和数据对象之间映射关系描述的元数据,指导从多数据源抽取数据,在临时数据库中完成转换并加载到目标数据库,利用临时数据库减轻目标数据库压力,实现通过用户设计修改元数据,从多源业务数据到数据仓库转化的一种灵活设计思想.  相似文献   

7.
一种轻型工作流引擎的设计与实现   总被引:1,自引:0,他引:1  
针对目前常见大型工作流引擎存在结构复杂、灵活性差等问题,采用分层存储思想,将工作流过程模型中节点的静态属性和节点之间的动态连接关系分开存储,优化了工作流过程模型文件的存储方式。在保存好的工作流过程模型的基础上,制定了简化的模型解析加载流程,根据节点之间的动态连接关系,提出了节点递归排序算法,保证了节点的有序运行。基于.NET编程平台,开发了一种轻型工作流引擎,实现了工作流实例的解析加载和各活动节点的有序仿真运行,通过案例验证了所开发工作流引擎的正确性和有效性。  相似文献   

8.
ETL是数据仓库建设的首要环节,在数据仓库建设过程中占有极其重要的地位。为了使ETL过程更加清晰、可靠,设计更加规范、便捷,提出了一种基于分层映射的ETL过程建模方法。本方法建立的ETL模型,具有严格规范的控制流程,能够清晰直观地反映数据的来源和流向、源数据与目标数据之间的映射和转换关系。本方法有效提高了开发效率,能够...  相似文献   

9.
数据ETL问题研究   总被引:3,自引:0,他引:3  
数据ETL(Data Extraction,Transformation and Loading)是数据仓库、数据挖掘以及商业智能等技术的基石,其主要用来实现异构多数据源的数据集成.首先简单介绍了ETL概念、背景、应用领域,然后着重讨论了ETL在异构数据源集成和脏数据检测中的应用、所面临的挑战等问题.最后总结介绍了ETL的三大发展趋势。  相似文献   

10.
数据仓库的ETL系统设计是一个很复杂的过程,为了能有效地管理数据仓库中的数据,使ETL过程具有灵活性、扩展性和可维护性,提出基于元数据管理方法,利用SQL Server 2008的综合服务(SSIS)项目与编程相结合方式来构建ETL系统.阐述了ETL系统的设计思路,元数据管理设计和ETL流程控制设计.  相似文献   

11.
In existing web services-based workflow, data exchanging across the web services is centralized, the workflow engine intermediates at each step of the application sequence. However, many grid applications, especially data intensive scientific applications, require exchanging large amount of data across the grid services. Having a central workflow engine relay the data between the services would resu'lts in a bottleneck in these cases. This paper proposes a data exchange model for individual grid workflow and multiworkflows composition respectively. The model enables direct communication for large amounts of data between two grid services. To enable data to exchange among multiple workflows, the bridge data service is used.  相似文献   

12.
为了提高办公效率,迅速构建基于流程的应用,提出了符合工作流参考模型的工作流引擎框架结构.以关系数据库为依托,进行工作流的过程建模和模型表达,研究并实现了工作流引擎的关键技术.结合在土地利用规划业务过程中的应用,开发出了工作流引擎服务器以及具有动态配置功能的工作流客户端应用框架.实践表明,该工作流引擎明显缩短了应用系统的开发周期,降低了系统维护的复杂性.  相似文献   

13.
为了提高RDF知识库的数据质量, 提出RDF图数据的异常检测及其自动修复的方法。首先, 原创性地定义了基于图的条件函数依赖(GCFD), 能够将属性值和语义结构的依赖关系统一表示; 然后, 提出有效的算法框架以及优化策略, 挖掘RDF数据中的GCFD, 并给出异常数据的自动修复流程; 最后, 在真实的数据集上, 通过大量实验确认解决方案的可行性和优越性。  相似文献   

14.
采用网格工作流调度和数据感知调度相结合的方法,提出一个面向数据密集型应用的网格工作流调度方案.在CSF4网格元调度程序中以调度插件的形式实现了该方案,并且保证两个调度插件之间能够协同工作.实验结果表明,该方案能有效解决数据密集型网格工作流作业的调度问题,并且进一步完善了CSF4多调度插件协同工作机制.  相似文献   

15.
通过引入OPeNDAP(网络数据访问协议开源项目)协议,设计了基于OPeNDAP的地球科学数据共享概念框架,提出了面向地球系统数据记录的数据共享系统体系结构及其工作流程。选取全球1948-2006年间的不同空间尺度和时间尺度的降水、地面气压、比湿、空气温度和风速等信息数据作为共享数据源,将上述体系结构应用在MEaSUREs(让地球系统数据记录在研究环境中应用)研究项目中,开发了地球信息科学数据分发共享原型系统及应用实例,实现了面向所有数据使用者的协议透明共享,并可通过二维、三维以及基于时间维的四维动态模拟,为辅助政府相关部门决策支持提供依据。  相似文献   

16.
数据仓库数据加载技术   总被引:2,自引:0,他引:2       下载免费PDF全文
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。  相似文献   

17.
基于角色的存取控制和工作流管理系统中的存取控制   总被引:2,自引:0,他引:2  
介绍了传统的基于角色的存取控制方法,指出在工作流管理系统中使用简单的基于角色的存取控制是不完整的,提出了工作流管理系统中存取控制的方法以及实现思路.  相似文献   

18.
针对网格中数据传输忽略网络状况的问题,提出了一种基于带权有向图的网格工作流数据传输策略.该策略针对不同数据处理率的网格工作流作业,首先根据网格内各结点之间的带宽,然后选择合适的数据传输方式,计算出两点之间的权重从而生成一个带权有向图.最后从图中选出最佳的传输路径进行数据传输,从而提高了工作流的执行性能.实验证明了在网络结构及传输速度一定时,该策略的数据传输性能优于传统的利用GridFTP直接传送的数据传输方法。  相似文献   

19.
When workflow task needs several datasets from different locations m cloud, data transfer becomes a challenge. To avoid the unnecessary data transfer, a graphical-based data placement algo- rithm for cloud workflow is proposed. The algorithm uses affinity graph to group datasets while keeping a polynomial time complexity. By integrating the algorithm, the workflow engine can intelligently select locations in which the data will reside to avoid the unnecessary data transfer during the initial stage and runtime stage. Simulations show that the proposed algorithm can effectively reduce data transfer during the workflow' s execution.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号