首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

2.
提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策略,通过线性递减概率规则将两种策略结合起来,形成自适应搜索策略,避免种群早熟和提高收敛速度,然后引入自适应发现概率,提高种群的多样性. SACS算法混合GS算法得到SACS-GS方法,该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围,并找到使卵生长和成熟的最佳解决方案,有效地识别大数据中的错误数据.实验结果表明, SACS-GS方法具有较高的大数据异常检测精度,且精度高于其他现有方法,处理时间低于其他方法.  相似文献   

3.
SCADA系统数据库中一般会有一些异常的电力负荷数据,直接用其来进行短期负荷预测将影响预测结果的准确性,因此有必要对这些异常数据进行辨识和修正.文中同时考虑负荷的横向连续性和纵向连续性,先把负荷数据按照日期排列成二维数据集,然后采用基于密度的方法,在两个维度中对异常数据进行辨识与修正,最后通过实例分析验证了该方法的有效性.  相似文献   

4.
设计并实现基于Spark的交通流数据处理与预测分析应用框架, 可以完成交通流数据的高效清洗、统计、存储和查询。利用基于多阶空间权重矩阵的STARIMA模型进行交通流预测分析, 可以验证数据处理效率及对预测应用的支撑作用。对比实验结果表明: 1) 交通流数据处理框架运行效率高, 适用于复杂的数据清洗和挖掘算法, 为预测模型建立数据支撑; 2) 交通流预测模型对空间权重矩阵进行了多阶优化, 兼顾高效性和准确性, 预测分析结果可以为交通诱导提供参考。  相似文献   

5.
针对大学生体质异常数据提取内存开销大、覆盖率低等问题,提出基于聚类分析的大学生体质异常数据提取方法。通过Relief算法调整数据特征距离,筛选出异常数据的相关特征,采用K-means算法聚类分析异常数据,将单条信息汇集为一类信息,改进K-means算法的K值选取,实现大学生异常数据精准提取。经验证,该方法具有较高的覆盖率,拥有较小的内存开销与时间开销,能够有效降低异常数据提取过程中内存与时间消耗。  相似文献   

6.
本文从电网运行可靠性分析、研究的数据需求出发,提出基于双层多Agent系统的元件状态诊断系统,并通过算例验证方法的有效性,为实现电网可靠性在线分析系统提供了一种数据采集与研究方式。  相似文献   

7.
地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加速效果不理想。Spark作为一种面向大数据处理的通用分布式并行计算技术,可以应用于并可简化地震数据处理算法并行化过程。借助于Spark的优势,通过两个实例讨论了基于Spark的地震数据重建并行化方法,提出了对于具有复杂输入输出组织数据方式的算法的并行化方法,提升了算法效率。研究成果为该类算法的Spark并行化开发提供了有益借鉴。  相似文献   

8.
针对不断增加的水路运输产生的水上交通数据量增长,导致的水上交通监测难度更大、处理时间更长,提出一种基于Spark的交通异常数据实时检测方法,通过对船舶自动识别系统(AIS)数据进行处理,对不同类型的交通数据进行分析并写入分布式文件系统HDFS中。然后通过小波分析的方法对AIS数据进行多层分解,去除高频噪声并对数据进行重构,找出AIS数据中的异常信息。通过对异常信息进行分析,结合Spark的数据处理结果,最终实时检测出交通异常数据。实验结果表明能够在短时间内对异常数据进行检测和分析,处理速度快,异常数据检测结果符合该水域的交通情况,检测方法能够为海事部门提供实时、稳定的监管服务。  相似文献   

9.
马跃锋 《科技资讯》2014,12(22):106-106
本文将结合电网运行中导致中低压电网电压异常发生的常见故障问题,对其故障特征以及辨识方法进行分析研究,以提高中低压电网运行中电压异常故障问题的辨识能力,实现电网安全稳定工作运行的提升与保障.  相似文献   

10.
为解决利用机器学习算法在线生成电网运行断面时所面临的特征因素“维数灾”问题,提出了一种基于两层模式的电网运行断面特征选择与在线生成方法。上层为过滤式特征选择层,采用Fisher分和信息增益两种特征选择指标对初始因素集进行筛选,重点剔除重复因素和无关因素,输出基础因素集。下层为包裹式特征选择层,利用序列后向搜索算法,进一步分析电网运行断面与运行参数之间的内在关系,生成特征因素集,同步形成基于该特征因素集的运行断面生成智能体。基于某地区电网实际数据构造的算例表明,本文方法能大幅降低特征因素“维度”,与初始因素集相比缩小90%以上,基于该特征因素集的智能体能在10秒中内在线生成运行断面,准确性评价指标达到95%,能够满足电网实时运行控制辅助决策的需要。  相似文献   

11.
基于神经网络的多层感知器模型,结合滚动学习 预报机制,提出了一种异常数据实时检测方法.该方法在每个当前时刻通过最近的固定长度的历史数据训练神经网络,完成下一时刻的预报.通过神经网络模型残差,确定概率为P的置信区间.当下一时刻数据落入置信区间内,则该数据被判为正常;反之,则为异常.被判为异常的数据不再用作更新历史数据,而以相应的预报值代替.通过某300 MW燃煤火力电站实际过程数据的在线验证,结果证明了所提出方法的有效性.  相似文献   

12.
面向空间数据组织的地理空间剖分框架性质分析   总被引:1,自引:0,他引:1  
为有效组织与管理海量空间数据,在融合国内外各种球面剖分模型优点基础上,设计了一套集空间数据组织与空间对象表达于一体的多层级地理空间剖分框架——基于地图分幅拓展的全球剖分模型(EMD模型)。在明确EMD模型的构建方法与编码方法基础上,对EMD框架方案进行了数学定义,并具体分析了其几何性质与几何精度,以确定EMD模型的应用领域与应用范围。最后利用GeoID编码完成空间对象表达实验,验证了该地理空间网格框架作为空间对象表达框架的优越性。  相似文献   

13.
况华  何鑫  何觅  覃日升  姜訸 《科学技术与工程》2021,21(24):10291-10297
受自然环境、计量仪器等影响,量测数据会出现异常,导致调度人员错误决策,威胁电力系统安全稳定运行。为保障电力系统安全稳定运行,提出了一种基于双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)神经网络的配网电压无监督异常数据检测方法。利用Bi-LSTM神经网络处理时序数据的双向特性,建立时序预测模型,通过对比预测值和实际值的误差检测异常数据。最后,基于某实际配网电压数据进行仿真验证,仿真结果表明:所提方法在准确率、F1分数等指标方面均优于决策树、K近邻、支持向量机、长短期记忆(long short-term memory, LSTM)神经网络。  相似文献   

14.
以降低无线传感器网络通信能耗, 均衡网络能量负载为目标, 通过动态构造以节点间通信能耗为权重的最小生成树及调整节点通信概率的方法, 提出一种基于拓扑的传感器网络数据收集算法DGAT, 改造了网络服务过程中节点的通信模式及能量消耗方式. 模拟实验结果表明, DGAT算法不仅大幅度提高了网络的生存时间, 且使网络的能耗更均衡.  相似文献   

15.
通过分析历史状况、总结前人的研究成果,并根据电网企业运行效率的理论构建DEA模型,对我国25个省电网的企业运行轨迹进行分析.研究表明:我国大部分省份电网企业运行效率处于最优发展轨迹上,规模适度是~41"1的显著特征;少部分省份电网企业弱劣于最优发展轨迹,规模效率较低是主要原因,规模报酬递增是他们的趋势;其余省份电网企业劣于最优发展轨迹,同时表现为规模效率较低和技术效率较低,投入冗余、产出不足是最大特征.对电网企业生产效率进行监管时要考虑到各省份电网企业之间生产力分布的不均衡性及其客观原因.  相似文献   

16.
讨论空间数据共享、集成的现状和存在的问题,提出基于网格的多源空间数据集成模型,介绍模型涉及的相关技术及模型的体系结构,并对基于网格技术空间数据集成的前景进行了展望。  相似文献   

17.
董西国  杨静 《应用科技》2001,28(12):33-35
以示功图数据和一些相关的生产数据为研究对象,引入数据挖掘技术,用决策树建立分类模型,建立了一个以泵况分析和泵参调整为目标的DSS决策支持系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号