首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
数据挖掘中的数据预处理技术   总被引:8,自引:0,他引:8  
阐述了数据集成的预处理技术及必要性,讨论了不完整数据、含噪声数据、不一致数据的清理方法。  相似文献   

2.
数据可视化对于从海量数据中发现规律、增强数据表现、提升交互效率具有重要作用。目前,数据可视化的概念及相关研究领域不断扩展,就数据类型而言,可视化研究逐渐聚焦于多维数据、时序数据、网络数据和层次化数据等领域。通过对中国知网(CNKI)中外文文献进行分析可知:2014年、2015年是数据可视化领域研究热度升级、理论成果大量产出的“里程碑”式年份;中国大数据领域研究热潮形成后,数据可视化是迅速发展的一个重要支撑领域;国内外数据可视化领域的研究,在时间上基本同步,而武汉大学、浙江大学、北京邮电大学、国防科技大学、电子科技大学等都是在该领域研究活跃度较高的国内高校。要获得良好的视觉效果,帮助用户降低理解难度,高效分析数据和洞悉价值,通常还需要注意色彩与语义、突出核心数据、防止数据过载、防止思维过度发散等技术要点。现有的数据可视化技术主要分为基于几何技术、基于图标技术、基于降维技术、面向像素技术、基于时间序列技术、基于网络数据技术的数据可视化方法,以及层次可视化技术和分布技术等。基于几何技术的可视化方法,包括平行坐标、散点图矩阵、Andrews曲线等。基于坐标的可视化方法,可以清晰展示变量间的关系,但受限于屏幕尺寸,当数据维度超过3个时,难以直观显示全部维度,需要结合人机交互技术进行展示,适用于表达不同维度之间的相关关系,比如学生学习行为之间的关联关系等。基于图标的可视化方法,主要包括星绘法和Chernoff面法,以几何图形作为图标刻画多维数据,直观反映出图标各个维度所表示的意义,适用于工作完成情况、激励工作进度概览等。基于降维技术的可视化方法,根据维度属性确定点的坐标,在保持数据关系不变的前提下映射到低维可视空间中,主要涉及主成分分析、自组织映射、等距映射等。基于时间序列的可视化方法,是一种显示数据间相互关系和影响程度的可视化方法,主要包含线形图、堆积图、地平线图等,随着时间发展采集相应数据,并利用上述3类可视化方法进行呈现,适用于表示信息数据流动和变化状态,如不同时间段成绩流向趋势分布、主题概念的变迁等。基于网络数据的可视化方法,核心是自动布局算法,通过自动布局与计算绘制成网状结构图形,主要有力导向布局、圆形布局、网格布局等,常用来表示大规模社交网络结构,适用于活跃度分析、引文关系展现等。层次可视化技术,主要包括节点链接、空间填充、混合方法等,通过绘制不同形状的节点和包围框来表示层次结构的数据,适用于表示群组成员间交互关系的发现和挖掘,如在线协作员工之间的交互。基于CNKI,通过对数据可视化研究情况的分析,提出数据可视化研究过程中的注意点,指出数据可视化需要重点考虑色彩的匹配,在色彩与数据内容的重要度之间建立关联;可视化方案应在满足业务需求的基础上以业务逻辑为依据,合理组合与应用相关可视化技术;统一的可视化风格有助于提升人们理解数据的连贯性、一致性和效率,兼顾用户的审美要求,在风格与色彩之间建立合理的匹配关系;数据可视化应以实用、合理、高效地表现关键过程、关键目标、关键结果为主要面向。此外,对可视化应用实例Echarts展开综述,包括Echarts 交互组件(markPoint和markLine标注点组件、dataZoom区域组件、图例交互组件)在可视化中的应用,以及动态数据绘制等。最后,对可视化存在的挑战以及未来研究方向进行了分析和展望,指出虚拟现实、可视化系统和数据分析是可视化未来的研究方向,其应用热点领域还包括统计可视化、新闻可视化、思维可视化、社交网络可视化和搜索日志可视化等。  相似文献   

3.
石油勘探技术发展迅速 ,需要一个集地震、测井、地质 3种数据为一体的勘探数据库来支持新的研究工作 .对包括地震资料处理、解释等资料的存储、应用方法进行了探索 ,提出了一种适合于中小油田的地震数据管理方案 .通过分析地震资料处理、解释产生的各类数据及其特点 ,从存储管理方法、数据规范化、质量控制方法、应用支持方法、数据服务方法等方面进行了详细论述  相似文献   

4.
反计算机取证技术研究   总被引:1,自引:0,他引:1  
分析了反计算机取证的基本概念和方法,比较了反计算机取证所采用的数据擦除、数据加密、数据隐藏、数据混淆和数据转换等主要技术,并提出了一种安全、高效的基于m序列的数据擦除方法.  相似文献   

5.
数字经济时代,数据资源关乎市场竞争力,数据应用带来市场壁垒,数据流通制度不完善等诸多因素导致数据垄断。数据垄断损害公平竞争、数据安全、技术创新与消费者权益,进而影响市场经济运行效率。数据垄断的治理,需要树立数据有序流动、保障数据安全、促进创新发展的治理理念,需要构建公共数据共享、互联网平台之间数据互联互通、企业数据向政府开放的多层次数据流通体系和“自我监管+行业监管+政府监管”的多元主体治理体系。  相似文献   

6.
提出反洗钱系统的实现框架,结合反洗钱系统的要求,同时介绍了数据预处理的几个关键环节,包括数据清理、数据集成,同时介绍了反洗钱系统中用到的几个关键数据开采技术,包括数据集成、数据分类、分联分析、聚类分析和可视化技术。  相似文献   

7.
每年一次的水文数据库更新是水文数据管理和维护的重要环节,传统的工作流程复杂且较多依赖于人工,容易影响到数据更新的效率和质量.面向水文数据库的更新问题,分析了水文数据潜在的质量问题及控制方法,结合面向异构数据库系统的通用水文数据引擎、数据检查与入库的并行优化算法和人机交互的质量控制机制等关键技术的研究,提出了兼顾数据质量的水文数据库自动化更新机制,将水文数据库的更新流程划分为数据接收、数据检查、人工交互数据修正、数据入库、可视化检查与修改5大关键环节,有效提高入库效率的同时确保水文数据库的更新质量.在此基础上研发的水文数据接收系统,能有力地支持可靠、高效的水文数据库自动化更新,已经在长江水文数据管理中得到应用,在水文行业具有较大的应用与推广价值.  相似文献   

8.
 当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理.尽管数据质量管理方面已经有一些研究成果,但由于大数据具有规模大、速度快和多样性高的特点,现有的方法难以适用于大数据质量管理.本文针对错误发现、错误修复和劣质数据查询处理,综述了大数据质量管理的问题与挑战,认为大数据质量管理的挑战主要有计算困难、错误混杂和缺少知识3 个方面.本文依据这3 个方面的解决方法,对大数据质量管理目前的研究进展进行了综述,并展望了大数据质量管理未来的研究方向.  相似文献   

9.
提出了一种组合方便、应用广泛的低速数据复接设备的实现方案。在介绍了系统组成和构造特点的基础上,着重分析和研究了X50数据复用、基群信道接口及同步检测等部分的电路原理及实现特点。通过实际线路试验,该方案完全达到了预定的设计目标。  相似文献   

10.
公安综合指挥中心建设是公安信息化建设的重要内容,通过统一数据平台技术,可以实现各子系统在数据层面的松耦合,达到最大限度的数据共享。统一数据平台奠基于数据库技术基础之上,涉及数据库建模、数据同步、数据清洗等关键技术,是公安综合指挥中心建设新的发展方向。  相似文献   

11.
利用现成书目数据进行图书编目   总被引:4,自引:0,他引:4  
介绍了如何利用现成书目数据进行图书编目的做法,包括取完全相同的数据用套录的办法进行编目、取内容相似的数据用套录的办法进行编目、在互联网上查询规范和标准数据进行编目、利用本馆数据库数据修改使用等。  相似文献   

12.
分析了数据集成过程中需要将集中存放的数据进行拆分实际问题,提出了基于字段的纵向拆分、基于记录的横向拆分和基于表的双向拆分等3种数据集成方法,实现了数据集成和资源共享,其思想对于数据集成的过程中需要将各自分布的数据合并起来的实际问题也有很大意义。  相似文献   

13.
本文主要叙述了作者在多年从事CAD研究工作的基础上,提出的一种新型计算机编程理论——数据翻译的思想理论。文章中介绍了数据翻译思想由来、数据翻译的类型,以及数据翻译的具体实现方法——数据翻译器的设计与开发。最后,作者还介绍了两例应用数据翻译思想解决实际问题的例子。  相似文献   

14.
刘湛 《科技信息》2011,(15):J0041-J0042
本文采用合适的算法,对底层数据进行处理,对包括电压偏差、公用电网谐波、电压波动和闪变、三相电压不平衡、频率偏差、暂时过电压和瞬态过电压等电能质量各项指标进行分析计算,并以图形化的形式显示。  相似文献   

15.
清华大学教务系统数据集成的研究与实践   总被引:1,自引:0,他引:1  
综合教务系统是清华大学数字校园的重要组成部分,是清华大学教务管理工作不可或缺的主要平台.为给学校教育教学改革与发展提供更有力的支撑,达到支持教改、完善管理、整合资源、加强服务的目的,清华大学在教学"985工程"二期设立了专题项目"现代化教学支撑平台",该平台规划建设以教学管理为主线的综合教务管理系统.由此,带来了教务系统数据集成的需求.通过对清华大学教务系统数据集成工作的研究与实践,归纳总结出一套数字校园信息系统数据集成的方法与步骤.  相似文献   

16.
随着神东煤炭集团的发展,企业的信息化建设面临着新的挑战,企业级公共数据进行跨部门、跨系统共享的需求进一步强烈,为达到企业战略目标和全面支持企业的业务发展,对信息系统提出了新的要求和考验,很多系统面临着升级,数据层面上也存在着不一致、不完整、不正确等问题,为解决这些问题企业开始对数据进行全面梳理,统一规划,统一编码,加强管控等一系列措施,将众多"孤岛式"的信息系统进行整合,实现信息的快捷流通和共享。  相似文献   

17.
ETL 工具从异构数据泺抽取数据,并将数据清洗,规范化后装载到数据仓库.文章从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案.提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出成绩管理模块的具体实施步骤.  相似文献   

18.
在智能电网环境下,录波数据具有广域、全景、海量和可靠的特征,传统的存储硬件采用磁盘阵列,数据库管理软件采用关系数据库系统的方法由于系统扩展性差、成本高、可靠性低,难以适应要求。本文提出了一种基于Hadoop的录波数据分布式存储与访问的新方法,并将其与传统方法的访问速度进行了对比,证明了新方法的高效性。  相似文献   

19.
大数据系统中数据源多,数据规模大,且数据具有异构异质的特点,为满足各种数据集成需求,如何快速高效地整合数据就显得越来越重要且具有挑战性。数据虚拟化能够灵活地实现各种数据集成需求,介绍数据虚拟化的概念、优势及应用需求,给出一种数据虚拟化系统架构,并对其中的数据虚拟化平面与管理平面以及各层的功能进行了阐述。重点针对数据虚拟化系统中存在的一些关键问题与挑战进行了详细分析,给出了需要进一步研究的课题与方向。  相似文献   

20.
随着网格技术的迅速发展,特别是网格产品的商业化,如何对网格中资源信息数据及时、高效地监控、管理成为网格用户的迫切需求.针对目前企业级网格系统高效处理资源信息数据的要求,提出了将ETL(Extract、Transformer、loader)技术应用到网格系统的解决方案.在该方案中,把ETL技术应用到服务接口中,然后将其架构在网格系统上;通过启动服务接口对数据进行抽取、转化、加载,实现资源信息数据的集成处理,最终向网格用户提供有效的资源信息数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号