首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。本文提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用k-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。然后,针对类不平衡问题提出结合过采样方法的混合Bootstrap抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明本文方法有效、合理,具有优异的辨识性能和效率。  相似文献   

2.
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可以有效减少结点间的数据移动次数,并具有良好的可扩展性.通过该算法在单机环境和集群环境的对比测试,说明该算法适用于大规模数据环境,且算法性能与数据规模成正比,集群环境较单机环境也具有很大的性能提高.  相似文献   

3.
针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利用投票法以及三支决策规则对标签对齐后的聚类成员进行集成,得到最终的三支聚类结果.实验结果显示,本方法能够有效处理大规模不确定性数据,相比传统基于Spark的聚类算法效率更高.  相似文献   

4.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

5.
为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规模数据样本聚类的效率,得到聚类结果后,采用动态推荐算法实现人力资源实时推荐。结果表明,Spark平台相比于单机在聚类计算效率方面更有优势,且所提出的算法比单机的K均值聚类算法的聚类速度和准确率均更优,在动态推荐性能方面也优于常用推荐算法。  相似文献   

6.
针对氧化铝生产过程中原矿浆制备工序碳酸碱浓度机理模型难以建立,无法实现在线检测的问题,通过对铝酸钠溶液温度和电导率的特性分析,提出一种基于同步聚类和稳定学习的碳酸碱浓度模糊建模方法。首先采用同步聚类算法将建模数据分类,并对聚类中心及分类进行离线修正,然后对每类数据进行模糊TS(Takagi-Sugeno)建模,并采用稳定学习算法对模型参数进行在线校正,保证辨识误差有界。将该方法应用于氧化铝生产过程碳酸碱浓度的软测量,现场实际数据预测结果表明了方法的有效性。  相似文献   

7.
聚类集成作为数据挖掘的重要应用工具,得到了广泛的认可和研究.本文在投票法的基础上提出一种新的软聚类投票(VMSC)算法.算法首先求取平均隶属度矩阵,然后进行迭代优化.该算法能够消除噪声点影响,具有很好的稳定性.Spark云计算平台能够高效处理大数据.为了提出的算法处理大数据,在Spark云计算平台上实现并行的VMSC算法.VMSC算法实验用12组UCI数据集进行验证,并与sCSPA、sMCLAs HGBF及SVCE等软聚类算法进行对比.结果表明,VMSC算法对软聚类算法具有较好的集成效果.在Spark云计算平台上对VMSC算法并行实现.实验表明,该算法具有较理想的并行效果,能够有效处理大数据.  相似文献   

8.
异常检测方法在电力领域有着广泛的应用,如设备故障检测和异常用电检测等.改进了传统Kmeans聚类随机选择初始聚类中心的策略;结合数据对象的密集度与最大近邻半径,选择更加接近实际簇中心的数据点作为初始聚类中心,并在此基础上提出了一种基于改进K-means算法的电力数据异常检测新方法.实验表明,上述算法具有更优的聚类效果和异常检测性能,并且在应用于电力领域时,算法可以有效地检测出异常电力数据.  相似文献   

9.
基于Spark平台的岩石图像聚类分析   总被引:1,自引:0,他引:1  
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。  相似文献   

10.
基于核模糊C均值的异常检测方法   总被引:1,自引:1,他引:0  
探索聚类方法在异常检测中的应用,提出了一种基于核的模糊C均值的异常检测方法.该方法使用核的模糊C均值对网络数据进行聚类,并使用基于簇内距离的判断规则对聚类结果进行标定,从而识别出攻击.使用KDD CUP1999数据集进行实验,结果表明本文表现出了高检测率和低误报率的良好性能.  相似文献   

11.
在对大规模数据进行蜻蜓算法优化时,由于要计算的维度过多,迭代次数过大,从而耗费大量运算时间,而基于Spark分布式计算可以减少大数据运算的耗时。将DA算法在Spark分布式计算平台下进行并行计算,把蜻蜓种群被分配到各个节点,每节点中蜻蜓个体信息通过多线程并行更新,然后共享全局最优解,从而提高大规模数据优化的运行速度。最后仿真实验的验证是由4个测试函数进行测试,验证结果显示:在保证正确率的前提下,基于Spark的DA算法在对大规模数据优化的计算用用时最少。  相似文献   

12.
随着医学图像规模的不断增长,为了快速且有效的处理医学图像并使各类图像处理算法得到应用.文章将传统的医学图像处理方法与Spark整合起来,提出了基于Spark的并行医学图像处理方法.首先,采用基于二进制的图像预处理转换方法,存储图像到分布式文件系统HDFS中;其次,应用传递函数的方法,避免了图像处理算法进行MapReduce转化,实现了快速的通用图像并行处理;最后,以肺叶DR图像分割算法为实例证明了基于Spark医学图像并行处理有较好的适应性和较高的效率,并适应大规模图像的并行处理.  相似文献   

13.
主要从并联补偿技术(Parallel compensation technology)改变电网的阻抗特性、维持或控制节点电压、向电网注入或吸收无功/有功功率三个作用出发,采用临界稳定分析方法(Critical stability analysis),对没有和已有并联补偿的系统进行分析比较,证明并联补偿能够提高输电系统电压稳定性,对改善电网安全稳定运行,具有重要的作用.  相似文献   

14.
针对机器学习算法超参数寻优效率低的问题和参数寻优主流算法的特点,提出了一种基于参数并行机制的机器学参数寻优方法。该方法利用群启发式算法来进行机器学习算法的参数寻优,将种群转换为Spark平台特有的弹性分布式数据集,针对参数寻优耗时特点并行计算种群中个体适应度。选取随机森林和遗传算法作为实验算法设计了多组实验对所提出的学习训练方法进行验证。实验结果表明,在20万条以下的小数据量下,文中提出的基于参数并行机制的机器学习参数寻优方法与基于数据并行机制的机器学习参数寻优方法相比,运行时间最多能够减少2个小时,并具有良好的可扩展性。  相似文献   

15.
为解决利用机器学习算法在线生成电网运行断面时所面临的特征因素“维数灾”问题,提出了一种基于两层模式的电网运行断面特征选择与在线生成方法。上层为过滤式特征选择层,采用Fisher分和信息增益两种特征选择指标对初始因素集进行筛选,重点剔除重复因素和无关因素,输出基础因素集。下层为包裹式特征选择层,利用序列后向搜索算法,进一步分析电网运行断面与运行参数之间的内在关系,生成特征因素集,同步形成基于该特征因素集的运行断面生成智能体。基于某地区电网实际数据构造的算例表明,本文方法能大幅降低特征因素“维度”,与初始因素集相比缩小90%以上,基于该特征因素集的智能体能在10秒中内在线生成运行断面,准确性评价指标达到95%,能够满足电网实时运行控制辅助决策的需要。  相似文献   

16.
随着新能源并网进程的推进,风电装机规模逐年扩大。受区域内天气变化影响,风机出力的间歇性和波动性特征对电网的威胁亦越发显著。极端天气所引发的风电出力异常爬坡事件,易导致电网功率失衡,对电力系统机组调度、源荷平衡造成了极大压力。合理的风电爬坡事件检测以及精准的风电功率预测能为风电场运维及电力系统调度提供先验指导,有力缓解风电不确定性带来的危害。首先讨论了目前主流风电爬坡事件定义的盲点,分类并分析了3种风电爬坡场景的功率变化特性,据此提出基于滑动窗双边累计和(cumulative sum, CUSUM)算法的风电爬坡事件检测方法,提取时序耦合信息,捕捉短时间窗口内风电功率数据的异常波动,提高风电爬坡事件检测精度。其次,采用贝叶斯优化的长短期记忆(long short term memory, LSTM)神经网络,最优化模型超参数,提高模型对于爬坡事件发生时风机出力的预测性能。进一步应用所提风电爬坡事件检测方法,对模型预测区间内的风电爬坡事件进行检测实验,验证了所提方法的有效性。  相似文献   

17.
随着智能电网和通信技术的迅速发展,电网系统采集的用户数据规模呈指数增长,传统电网负荷预测方法难以满足海量负荷数据情形下的高效分析和计算需求。据此,依托电力系统数据采集云平台,提出一种基于云计算和改进极限学习机的电网负荷预测模型,采用Map-Reduce网络架构,部署于Hadoop平台,利用分布式计算方式进行电网负荷的精准建模和预测分析。结果表明,相比已有方法,本研究方法具有负荷预测精度高、运行速度快的优势,可为后续智能电网系统建设及管理运用提供一种新颖的解决思路。  相似文献   

18.
户用小型风力发电系统的并网运行控制   总被引:1,自引:0,他引:1  
为了克服独立运行的小型风力发电系统的缺点,节约电能,提出了一种与电网并联运行的户用小型风力发电系统的结构及其控制策略。该系统的并网部分由一个不控整流桥、Boost变换器和一个单相并网逆变器组成,采用"并网不上网"的运行方式。对Boost变换器进行控制,实现风力机的最大功率跟踪;并网逆变器采用以电流为内环、以电压为外环的双闭环控制方法,可与单相电网并联运行,但不对电网输出功率。通过不同风速、电网电压和负载下的系统仿真与单相逆变器并网实验,证明了系统控制策略的有效性。  相似文献   

19.
针对高比例新能源渗透背景下的常规AGC机组和新能源AGC机组协调控制问题,提出了基于"两个细则"的风光水火多电源AGC多目标协调优化方法,该方法在确保电网调频经济性的同时兼顾了电网的调频质量和网架功率传输能力。基于某地区长期AGC历史统计数据,分析了不同类型机组的调频特性,计算其调频指标;基于华中电网"两个细则"的要求,以电网的调频成本和网损成本、调频速度和调频精度为目标,建立了含风光水火的多目标AGC有功协调优化模型;结合某内陆地区网架结构和AGC数据,采用多目标粒子群算法进行模型求解,得到了各个AGC场站的有功出力,进而验证了文中提出方法的有效性。  相似文献   

20.
为了提高移动用户位置预测的精度,提出了基于并行模式挖掘和路径匹配的移动用户位置预测方法,对传统的FP-GROWTH算法作了并行化处理,优化了节点负载分配方法,在Spark平台下挖掘用户移动频繁模式.改进了基于索引的路径相似度算法,提出基于路径最短距离的相斥度算法,提高了对轨迹数据缺失的适用性.在真实的用户轨迹数据集上实验表明,提出的基于轨迹相斥度预测方法相比马尔可夫模型和卡尔曼滤波模型拥有更高的预测精度,预测精确度平均提升7%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号