首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
通过大数据技术对海量的用户贡献内容构建数据分析系统框架,以酒店为例,进行多维度分析及可视化应用。基于TripAdvisor网站的列表和点评信息,通过分布式爬虫框架爬取所需的数据,经过数据预处理,采用分布式文件系统存储数据,在此基础上运用统计建模及自然语言处理方法进行数据分析研究,借助第三方框架对分析结果进行可视化。研究者在使用该框架时,可以根据自身需求从多个维度进行数据分析及可视化应用。该框架能够有效地对旅游评论大数据进行多维度的统计分析,进而为旅游相关人员提供基于旅游评论大数据的参考信息。  相似文献   

2.
为实现海量数据的信息快速挖掘和直观表达,提出了基于数字流域仿真平台的水文数据三维可视化方法.该方法利用顾及地形特征生成的流域离散点作为数字流域仿真平台与观测数据和分布式水文模拟结果集成的基础;研究了流域水文数据时空展布和三维等值线生成算法与分区透明度和颜色值相结合增加视觉敏感性来虚拟表达水文时空信息;并引入计算机动画技术实现水文数据时空演变过程.最后将以上算法与数字流域仿真平台集成应用于长江上游降雨过程的动态三维可视化系统的构建,取得了良好效果.  相似文献   

3.
文章探讨了高校信息系统建设存在的问题和解决方案;论证了数据集成技术对高校教育信息资源整合的重要性;分析对比了传统分布式组件技术与网格数据集成技术的优缺点,针对前者在耦合度、互操作性、跨平台性及动态适应性等方面的不足,提出了网格环境下基于OGSA-DAI的分布式信息系统数据集成方法,并通过实例验证了该方法的可行性和先进性.  相似文献   

4.
基于构件技术的产品数据管理服务模型   总被引:3,自引:0,他引:3  
论文针对产品数据管理系统对于集成和扩展性的要求 ,基于 CORBA (comm on object request brokerarchitecture)软件总线规范提出了一个产品数据管理系统的服务模型。该模型通过应用接口服务实现系统集成 ,统一了系统核心功能和集成功能的实现方法 ;通过全局数据模型和全局功能模型的管理进行系统的扩展 ,大大提高了系统的适应性。该方法充分利用了分布式技术的优势 ,系统集成和扩展的效率均大大优于传统的专用集成语言、集成接口的方法  相似文献   

5.
随着科学与技术的发展,产生了大量的数据,为了帮助人们更好地了解数据的变化趋势,产生了一门重要的分支——数据可视化.数据可视化是大数据分析的一个重要手段,它是用视觉形式向人们展示数据重要性的一种方法,使生硬的数字通过数据可视化软件就可以很容易发现其关联变化.本文根据某公司报警运营服务需求,在报警服务平台的框架下介绍报警平台可视化的环境及工作流程,结合基于降维的数据分析技术,具体讨论关于北京市ATM报警数据的信息可视化的设计、实现和步骤.  相似文献   

6.
彭大为  史惠存 《江西科学》2020,38(2):252-256
随着计算机技术的不断发展,数据处理技术不断推陈出新,特别是大数据、分布式集群、云计算技术的发展使得数字水利开始向智慧水利转变。由数字水利向智慧水利转变的重要技术之一就是对水利大数据的处理,大数据处理是实现智慧的核心技术。一个完整的大数据处理工作流程大致包括数据收集与导入、数据清洗与质量控制、数据管理与存储、数据分析与可视化、数据建模与模型管理。主要对水利自动化实时流式大数据的处理提出了一种解决方法,该方法能够实现对水利自动化设备实时上报的高频流式大数据进行有效的处理。  相似文献   

7.
偏序结构图因其良好的知识可视化特性已在知识发现、数据挖掘等领域得以广泛应用.但在对大数据所形成的超大形式背景进行研究和分析时,偏序结构树形图存在的一些不足,使大数据可视化效果欠佳,不利于对大数据进行数据挖掘和知识发现.本文对偏序结构树形图进行改进,提出了可用于大数据分析的偏序结构环形图.对实例形式背景绘制出偏序结构环形图,并与其偏序结构树形图比较.实验结果表明,该方法清晰、直观,可视化效果较好,能更有效地呈现出大形式背景中的重要信息,可以应用在大数据的数据挖掘和知识发现中.  相似文献   

8.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

9.
R软件的数据挖掘应用   总被引:1,自引:0,他引:1       下载免费PDF全文
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。  相似文献   

10.
数据采掘中的可视化技术和方法   总被引:2,自引:0,他引:2  
主要介绍了几种目前常用的可视化数据采掘技术,以及它们的含义、技术特点和适用范围;同时描述了一个集成多种可视化数据采掘技术的系统工具——VisDB系统,并对其性能进行了评价;最后,通过一个商业POS的数据采掘应用实例,说明可视化数据采掘技术对分析和检索大型数据库是非常有用的。  相似文献   

11.
针对现有关系数据库中分布式大数据集成冲突消解研究的不足,提出一种新的集成冲突消解算法。依据关系数据库中分布式大数据的集成过程对冲突进行分类,将其划分成语义冲突、模式冲突以及实例冲突。针对语义冲突,通过句法融合、逻辑树融合和频率融合法实现冲突消解。通过属性有向图对关系数据库中模式数据和实例数据的属性进行描述。从属性关系参与分布式大数据集成冲突的状态分析,通过关系的权重值对属性关系的重要程度进行量化处理。通过有向图全部关系的权重和对所有属性有向图的重要程度进行描述。综合分析冲突数与权重定义代价函数,在此基础上给出关系数据库分布式大数据集成冲突消解详细过程。实验结果表明,所提算法冲突识别和消解性能高。  相似文献   

12.
数据可视化对于从海量数据中发现规律、增强数据表现、提升交互效率具有重要作用。目前,数据可视化的概念及相关研究领域不断扩展,就数据类型而言,可视化研究逐渐聚焦于多维数据、时序数据、网络数据和层次化数据等领域。通过对中国知网(CNKI)中外文文献进行分析可知:2014年、2015年是数据可视化领域研究热度升级、理论成果大量产出的“里程碑”式年份;中国大数据领域研究热潮形成后,数据可视化是迅速发展的一个重要支撑领域;国内外数据可视化领域的研究,在时间上基本同步,而武汉大学、浙江大学、北京邮电大学、国防科技大学、电子科技大学等都是在该领域研究活跃度较高的国内高校。要获得良好的视觉效果,帮助用户降低理解难度,高效分析数据和洞悉价值,通常还需要注意色彩与语义、突出核心数据、防止数据过载、防止思维过度发散等技术要点。现有的数据可视化技术主要分为基于几何技术、基于图标技术、基于降维技术、面向像素技术、基于时间序列技术、基于网络数据技术的数据可视化方法,以及层次可视化技术和分布技术等。基于几何技术的可视化方法,包括平行坐标、散点图矩阵、Andrews曲线等。基于坐标的可视化方法,可以清晰展示变量间的关系,但受限于屏幕尺寸,当数据维度超过3个时,难以直观显示全部维度,需要结合人机交互技术进行展示,适用于表达不同维度之间的相关关系,比如学生学习行为之间的关联关系等。基于图标的可视化方法,主要包括星绘法和Chernoff面法,以几何图形作为图标刻画多维数据,直观反映出图标各个维度所表示的意义,适用于工作完成情况、激励工作进度概览等。基于降维技术的可视化方法,根据维度属性确定点的坐标,在保持数据关系不变的前提下映射到低维可视空间中,主要涉及主成分分析、自组织映射、等距映射等。基于时间序列的可视化方法,是一种显示数据间相互关系和影响程度的可视化方法,主要包含线形图、堆积图、地平线图等,随着时间发展采集相应数据,并利用上述3类可视化方法进行呈现,适用于表示信息数据流动和变化状态,如不同时间段成绩流向趋势分布、主题概念的变迁等。基于网络数据的可视化方法,核心是自动布局算法,通过自动布局与计算绘制成网状结构图形,主要有力导向布局、圆形布局、网格布局等,常用来表示大规模社交网络结构,适用于活跃度分析、引文关系展现等。层次可视化技术,主要包括节点链接、空间填充、混合方法等,通过绘制不同形状的节点和包围框来表示层次结构的数据,适用于表示群组成员间交互关系的发现和挖掘,如在线协作员工之间的交互。基于CNKI,通过对数据可视化研究情况的分析,提出数据可视化研究过程中的注意点,指出数据可视化需要重点考虑色彩的匹配,在色彩与数据内容的重要度之间建立关联;可视化方案应在满足业务需求的基础上以业务逻辑为依据,合理组合与应用相关可视化技术;统一的可视化风格有助于提升人们理解数据的连贯性、一致性和效率,兼顾用户的审美要求,在风格与色彩之间建立合理的匹配关系;数据可视化应以实用、合理、高效地表现关键过程、关键目标、关键结果为主要面向。此外,对可视化应用实例Echarts展开综述,包括Echarts 交互组件(markPoint和markLine标注点组件、dataZoom区域组件、图例交互组件)在可视化中的应用,以及动态数据绘制等。最后,对可视化存在的挑战以及未来研究方向进行了分析和展望,指出虚拟现实、可视化系统和数据分析是可视化未来的研究方向,其应用热点领域还包括统计可视化、新闻可视化、思维可视化、社交网络可视化和搜索日志可视化等。  相似文献   

13.
时空数据的多维属性和稀疏分布特征是数据分析的主要难点.利用数据可视化技术实现多维稀疏时空数据的表现和辅助分析是当前一个研究热点.基于此,提出一种多模态数据可视化方法,利用多层次视图表现模型和人机交互方式,直观展示稀疏时空数据的多维属性,进而分析数据的统计群组特征和典型个体行为模式,最终实现对异常行为的识别.针对覆盖新疆全区的车辆加油数据,融合多种相关数据源,利用该可视化方法,实现了一个车辆行为可视化数据分析系统,使用平行坐标、地图、日历矩阵、桑基图、散点图等视图模型,实现了对个体行为特征和群体行为模式的可视化表现,进而实现了对异常行为的识别、确认和预警等功能.  相似文献   

14.
基于XML的数据集成应用架构中的模式管理模型   总被引:3,自引:0,他引:3  
基于XML的数据集成应用指屏蔽底层分布式、异构数据库的差异,为用户提供统一的XML数据展示视图和数据操作接口。在分析了基于XML的数据集成应用架构的基础上,针对其中的预存模式管理,提出了二叉树结构的管理模型以及算法描述。  相似文献   

15.
提出了一种多元数据的点得分平行坐标表示及可视化分析方法.该方法利用简单贝叶斯公式计算各属性值或属性值区间的频数和点得分,最后根据构建的点得分平行坐标即可进行数据集的可视化分析和未知样本的分类.将该方法应用到一个肝功异常数据集的结果表明,利用该图表示可以有力地揭示数据内在结构和发现知识,从而特别适合应用到疾病诊断等数据分析领域.  相似文献   

16.
形式概念分析是一种强有力的数据分析和可视化工具,自提出至今已被应用到数据挖掘、知识发现等领域.但由于概念间复杂的关系使得概念格中的连线错综复杂,尤其是在处理大的形式背景时显得尤为混乱.形式背景中所包含的属性间关系、对象间关系以及对象一属性关系是形式背景的本质关系,本文在人类认知事物哲学原理的指导下,构建了以描述属性间关系和区分对象为基本目的的偏序结构图,并描述了其构建方法.该种图形层次分明、结构清晰,不存在线的交叉连接,具有比较好的可视化效果,尤其计算方法简单,存在应用到大数据的潜能,为大数据数据分析和知识发现提供了一种潜在工具.  相似文献   

17.
对新闻数据可视化技术进行了研究,并充分整合数据挖掘、文本分析、分布式存储及可视化技术,设计实现了一个新闻数据可视化系统.它把采集到的新闻数据进行分类,并结构化存储,在WEB端为用户展示新闻数据的可视化分析成果.系统在交互式设计上提供了强大的用户界面来辅助新闻关注者对网络舆情的直观掌控,并通过对系统性能的测试,证明了系统在大量用户使用及大规模数据呈现的情况下都具有较好的性能.  相似文献   

18.
面向现代城市管理、智慧城市建设与城市突发事件应急响应决策等重大社会服务需求,针对现有的城市时空数据集成和综合分析还无法为现代城市综合管理提供有效服务及支持等问题,对基于多源异构时空数据的城市动态分析模拟等方法进行了研究,重点突破基于高性能计算的海量异构数据集成、分析及展示,面向决策的城市智能分析等核心技术,研发基于高性能计算的城市时空数据分析与决策模拟平台,并在此基础上,开展典型城市应急决策支持与模拟应用示范,为我国城市的信息化与智慧化管理提供科学技术支撑。课题主要包括以下研究内容:(1)海量多源异构时空数据集成分析。在集成863项目"GIS异构时空数据集成技术"(武汉大学吴华意等负责)和第一课题"复杂时空数据集成及多源异构一体化建模"研究成果的基础上实现城市多源异构数据的建模、组织和检索,研究时空演变信息的实时快速提取、查询和分析,以及海量实时监测数据的融合集成和可视化,实现城市系统从静态向动态的全息转换。(2)城市动态分析模型关键技术研究。主要是针对三组模型库的开发与实现展开研究,即影响分析模型库、过程预测模型库、应急优化模型库。其中,过程预测模型库及应急优化模型库为本课题的决策模拟研究提供算法方面的支持。(3)城市智能决策支持与模拟关键技术研究。在城市智能决策过程理论研究的基础上,进行城市智能决策模拟模型方法研究,同时构建经典模型库与新型方法库两大模拟模型库;组建与时空数据相匹配的城市智能决策综合分析模型;综合上述理论研究,构建城市智能决策支持和模拟平台。(4)面向城市大型活动实时交通流模拟与疏导的应用示范。选择广州市作为应用示范区域,对多源传感器获取的城市时空数据进行实时接入和标准化集成处理,构建城市交通多源时空数据库;进行常态交通量的时空分布规律及主要驱动因子研究,构建实时交通流分析及模拟知识库;并在广州市核心区进行实时交通流模拟和实时交通疏导应用示范。(5)面向城市大型活动应急决策支持与模拟的应用示范。选择乌鲁木齐市为应用示范区域,在多源时空数据集成与决策模拟技术的基础上,以乌鲁木齐市承办大型城市活动(包括中国-亚欧博览会等)为服务对象,进行示范应用。  相似文献   

19.
随着医疗水平的不断提高,借助机器学习方法对大量的医疗诊断数据进行分析成为近年来热点研究方向之一.在介绍C4.5决策树算法的相关理论及建树流程基础上,以竞赛项目中的乳腺癌数据集为基础,对数据集进行预处理,建立决策树分类模型,以可视化形式展示分类结果.实验结果表明,该分类模型可达到较高的准确率,证明决策树算法有助于医疗数据分析应用.  相似文献   

20.
首先厘清大数据内涵及其价值,指出大数据由社会数据、感知数据和互联网数据构成,大数据内涵使用量大、增长快、多样性和高价值等四大要素表征,大数据集是满足从中可能挖掘出符合事物发展规律性的数据集。大数据的产生催生了数据密集型科学;大数据分析在社会治理和民生服务上的效益显著,大数据时代的治理需要树立并运用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号