首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
ORACLE InterMedia多媒体数据存取技术与应用   总被引:1,自引:0,他引:1  
在ORACLE9i数据库平台下,依据Oracle interMedia对象技术特点,分析了Oracle interMe-dia在实现多媒体数据存取方面的技术优势;给出了实现多媒体数据在ORACLE数据库中进行存取的基本设计方法、通过实例阐明了在ORACLE的SQL(PL/SQL)级实现结构化与非结构化数据统一操作的可行性。  相似文献   

2.
随着网格技术的迅速发展,特别是网格产品的商业化,如何对网格中资源信息数据及时、高效地监控、管理成为网格用户的迫切需求.针对目前企业级网格系统高效处理资源信息数据的要求,提出了将ETL(Extract、Transformer、loader)技术应用到网格系统的解决方案.在该方案中,把ETL技术应用到服务接口中,然后将其架构在网格系统上;通过启动服务接口对数据进行抽取、转化、加载,实现资源信息数据的集成处理,最终向网格用户提供有效的资源信息数据.  相似文献   

3.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

4.
基于证券行业半结构化数据的抽取技术   总被引:1,自引:1,他引:1  
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力.  相似文献   

5.
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。  相似文献   

6.
ETL是指数据抽取(extract)、转换(transform)、装载(load)的过程,是数据仓库构建过程中的核心环节和技术难点.基于水厂数据仓库系统,研究了如何运用ETL技术实现水厂数据仓库中数据的抽取、转换和装载.  相似文献   

7.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

8.
色菲  王佳  潘超 《科技信息》2007,(34):75-75,52
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。  相似文献   

9.
Excel作为Microsoft Office的一部分,已经被广泛应用于各行各业的数据统计,办公电子表格文档处理等,如何将这些数据与关系数据进行统一管理,Excel半结构化数据与结构化数据的集成是前提.本文采用把XML做为中间转换模型的方法,实现Excel数据与结构化数据之间的转换.  相似文献   

10.
随着互联网的广泛应用,聚集了海量的文本数据,内含丰富的时空信息。面向文本的时空信息挖掘成为当前地理信息科学(Geographical Information Science, GIS)的研究热点,不断涌现出各种以自然语言处理(Natural Language Processing, NLP)技术为基础的挖掘方法。面向政务文本数据,对其进行事件级的时空模型建模,目的实现政务文本数据在事件级的简单分类、构建文本数据的结构化表达模型、探究事件级中时间空间的关系。实验证明,该模型对比之前的事件模型能更好地概括政务文本中的关键信息,针对于政务文本的结构化表达效果理想。  相似文献   

11.
基于CWM的标准ETL的设计与实现   总被引:6,自引:0,他引:6  
目前开发ETL(Etract Transform Load)系统过程中,最典型的问题就是元数据管理混乱,在分析ETL和元数据之间关系的基础上,提出了一种基于公共仓库模型开发的标准ETL系统设计思想,给出了该标准ETL系统的实现过程。将该方法应用于某医疗保险系统的ETL开发过程中,结果表明,与传统的ETL开发过程相比,该系统开发效率提高40%以上,系统具有良好的通用性和易集成性,解决了元数据管理混乱的问题。  相似文献   

12.
目的:解决Web数据挖掘中的半结构化数据模型和半结构化数据模型的抽取问题.方法:运用XML作为元标志语言所提供的描述结构化资料的格式来使复杂的Web数据挖掘简单化.结果与结论:可以加强对非结构化数据如文本数据、图形图像据、多媒体数据的挖掘.  相似文献   

13.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

14.
何庆  龚静 《科技资讯》2014,(33):11-12
在移动互联网迅猛发展的时代,电信运营商对用户上网日志等非结构化数据的处理、分析和挖掘变得尤为重要,传统的基于小型机和关系型数据库的数据处理系统已经无法满足海量非结构化数据的及时处理需求,相对传统做法,搭建X86集群、利用云计算技术对海量非结构化数据进行处理,具有高效、低成本、易扩展等方面的巨大优势。另外,用户上网日志中包含着大量的个性化信息,如何充分挖掘和分析这些信息,对电信运营商在移动互联时代实现精细化运营至关重要。该论文主要以用户WAP日志为例,详细阐述如何利用云计算技术处理海量的非结构化数据,进而去挖掘和分析用户上网行为。  相似文献   

15.
将数据的抽取转换加载(ETL)过程和工作流技术结合起来,研究了ETL过程的工作流调度问题,设计了一种简单串行和稳定可靠的循环遍历算法.为了提高ETL效率,将并行机制引入到节点访问算法中,对节点访问算法进行了改进,设计了新的节点访问算法,并讨论了加入并行机制后可能会遇到的数据源并发控制等问题,并给出了解决方法.所提出的方法对提高数据集成效率很有效,在国产数据库系统的应用中可起到积极推动作用.  相似文献   

16.
基于XML的多数据库系统集成数据模型   总被引:2,自引:0,他引:2  
随着网络信息的大量积累,如何充分利用网络资源已成为一个亟待解决的问题,将数据库技术应用到Web数据中是一种较好的解决办法,而其中则牵涉到Web数据的结构抽取以及采用什么形式描述这种结构。基于上述情况,提出了如何将一个典型的半结构化数据(HTML网页)经过模式抽取并转换为XIDM描述形式的方法,从而实现了自行研制的多数据库系统Panorama与文件系统的集成。  相似文献   

17.
在非结构化数据的处理中,资源共享技术的研究,往往作为研究的重点。而现在大多数的资源共享技术研究,都仅仅限于2种数据的格式转换研究。每当增加一种格式的非结构化数据时,又需要针对进行转换的两种数据进行格式转换方法的研究。相当于在做着重复的工作。因此介绍了一种通用的非结构化数据格式转换方法,以规则库为基础,对非结构化数据进行格式描述,以及转换规则的描述,从而实现了非结构化数据格式转换的统一。创新点为制定格式转换"规则的规则"。  相似文献   

18.
ETL 工具从异构数据泺抽取数据,并将数据清洗,规范化后装载到数据仓库.文章从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案.提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出成绩管理模块的具体实施步骤.  相似文献   

19.
非结构化信息在计算机信息中占了大量份额.非结构化信息分为书面文档信息和流媒体两种,其中书面文档是主要表现形式之一.提出了一种实现可扩展的,支持互操作的非结构化文档管理平台SEP(Sursen exchangeable platform).SEP是针对书面文档的描述、存储、处理、管理、安全的基础技术平台,是非结构化信息处理技术领域中的核心技术.SEP是第一个支持UOML(unstructured operation markup language)标准的非结构化文档管理系统.  相似文献   

20.
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分利用了企业系统中所有的服务器资源,从而降低了运行ETL服务器的硬件成本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号