首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
风电机组的风速、功率数据是衡量风电机组正常运行的关键参数,然而其中包含大量的异常数据,需要进行清洗。该文提出一种改进的孤立森林算法,先使用四分位法确定孤立森林正常数据评分与异常数据评分的分界线,再划分风速区间改变边缘数据的异常性,最后使用最小二乘法曲线拟合去误差去除小概率离散型和小概率堆积型异常数据的改进方法来对风速、功率的异常数据进行清洗。结果表明:与传统的孤立森林算法相比,改进的孤立森林算法能够正确界定正常数据评分与异常数据评分的分界线,可以去除堆积型异常数据,且对于数据主带边缘的离散型异常数据具有更好的清洗效果。  相似文献   

2.
孙睿藻  魏璐 《河南科学》2023,(3):313-320
在风电功率预测中,风速到风电功率的转换是关键步骤,风功率曲线建模和机器学习等技术都需要高质量的风电功率数据,而风电机组实际运行过程中由于多种因素会导致风功率曲线中出现大量的异常数据.首先分析了河南省洛阳市虎头山风电场风电机组历史运行异常数据分布特征,提出了结合孤立森林(iForest)算法与标准差(σ)检测法的技术对异常数据进行识别,并对比了iForest-σ和σ-iForest两种次序组合方式在异常数据识别过程中的异常数据清洗时间、删除率、准确率.结果表明,iForest-σ和σ-iForest方法都能够有效识别异常数据,iForest-σ方法相对数据删除率低且精度高.上述方法清洗效果好,效率高且不依赖于正常数据进行非监督训练,同时适用于其他研究场景的异常数据清洗工作,具有较强的通用性.  相似文献   

3.
基于分裂准则与相对质量算法对孤立森林算法进行了改进,优化了孤立森林算法的分支步骤与局部度量方式.利用标准数据集(Shuttle、Satellite、Annthyroid)验证了算法的有效性,并分析了算法复杂度;应用改进的孤立森林算法对某炼化企业催化裂化数据进行异常识别,与经典的孤立森林算法、SCiForest及ReMa...  相似文献   

4.
针对传统异常用电检测在面临高维数据中的维数诅咒,以及不相关特征对异常检测的影响,造成检测精度低等问题。提出了一种基于无监督密度子空间选择的孤立森林检测算法。首先,提出了一种有效的基于密度的紧凑数据表示方法,提高了子空间选择策略的效率。然后,应用最小冗余-最大相关-密度准则(min-Redundancy-Maximum-Relevance-to-Density , mRMRD),用于选择基于互信息的相关子空间。最后,在相关子空间中构建隔离树并集成孤立森林,实现对异常用电数据的检测。通过实验分析,与传统检测算法相比,所提方法在准确率、ROC曲线下面积(Area Under Curve,AUC)、F1-Score指标上均有提升,提高了异常用电检测的效果。同时,灵敏性分析也验证了无监督密度子空间孤立森林检测算法的有效性。  相似文献   

5.
6.
提出了一种基于灰度模型的电能量异常数据修复方法,以经过识别的正常历史电能量数据作为输入变量,以异常点所处的时间节点电能量数据作为输出变量,经过一次累加,级比检验,求解预测方程得到预测值,动态地对电能量数据进行迭代预测,最终对预测值进行精度检验,预测的平均相对残差为2.182%,根据结果对原始数据进行修改,从而达到修复电能量异常数据的目的.以某区域实际电能量数据进行模型预测修复,并对结果以及误差进行分析,验证了该方法的可行性.  相似文献   

7.
针对孤立点检测算法不能较好地模拟人工检测过程、未充分考虑待测数据周围样本分布的问题,提出了一种孤立点检测算法DD-SVDD.该算法综合考虑待测样本与目标样本之间的距离,以及待测样本所在区域样本的分布信息,结合距离和平均密度来确定高维特征空间中决策边界附近待测数据的类别.在训练阶段,考虑了决策边界附近目标训练样本的分布,...  相似文献   

8.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

9.
贺彦琨 《甘肃科技》2009,25(22):35-36,34
在时间序列数据挖掘领域,对孤立点的研究已经成为关注的热点。结合证券领域数据在时间和取值方面的相关特征,提出了一种新的孤立点探测方法,以便在海量数据中高效快速的寻找出证券领域数据集合中的孤立点,研究产生这些异常数据的原因,及时发现金融欺诈等违法行为,以便规避风险、保护用户利益。  相似文献   

10.
针对目前车载网络的信息安全问题, 在控制器局域网(CAN)总线异常检测方法的基础上, 提出一种基于随机森林模型的CAN总线报文异常检测方法. 首先用采集的大量正常和异常报文数据构造随机森林模型, 并进行一系列的参数调整; 然后将待检测的CAN总线报文输入到对应ID的随机森林模型中; 最后通过模型完成报文正常或异常的分类. 仿真实验结果表明, 该模型能有效检测出总线上的异常数据, 提升了汽车运行的安全性.  相似文献   

11.
异常检测方法在电力领域有着广泛的应用,如设备故障检测和异常用电检测等.改进了传统Kmeans聚类随机选择初始聚类中心的策略;结合数据对象的密集度与最大近邻半径,选择更加接近实际簇中心的数据点作为初始聚类中心,并在此基础上提出了一种基于改进K-means算法的电力数据异常检测新方法.实验表明,上述算法具有更优的聚类效果和异常检测性能,并且在应用于电力领域时,算法可以有效地检测出异常电力数据.  相似文献   

12.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

13.
智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。本文提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用k-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。然后,针对类不平衡问题提出结合过采样方法的混合Bootstrap抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明本文方法有效、合理,具有优异的辨识性能和效率。  相似文献   

14.
群智感知车联网利用普通用户的手机或平板电脑等智能终端获得交通数据,解决了车联网以低成本获取足够数据的问题,但却凸显了数据"质"的问题.为此,在分析群智感知车联网的数据结构及数据异常特点的基础上,提出一种适用于群智感知车联网的异常数据检测算法,并依此剔除异常数据,提高数据质量.算法利用核密度估计理论对车联网数据的概率密度进行估计,进而构建信任函数计算被检数据的信任度,后根据统计学理论将信任度小于0的数据判定为异常数据.最后对该算法的可行性及性能进行了仿真,结果表明该算法的性能可满足实用需求,且对比传统的统计检测法在检测率和误检率上具有更好的性能.  相似文献   

15.
针对隔离森林(iForest: isolation Forest)算法对局部异常点检测能力较低, LOF(Local Outlier Factor)算法 检测时间较长的问题, 提出了基于瀑布型混合技术的隔离森林算法 iForest-WHT(isolation Forest based on Waterfall Hybrid Technology)。 该算法借鉴瀑布型混合技术思想, 将隔离森林算法作为过滤器, 以分割路径为阈 值判断依据, 将路径小于阈值的数据放入候选异常子集, 继而使用考虑极值影响的改进的 LOF 算法对候选异 常子集进一步精化, 得到更加精确的异常点。 实验结果证明, 该算法能以较高的效率识别局部异常点, 提高了 算法的 F 1 值, 并且降低原 LOF 算法的误检率。  相似文献   

16.
孤立点检测问题是数据挖掘领域中的一个重要研究内容.首先对目前有代表性的孤立点检测算法进行综述,详细阐述了其实现的基本原理、实现的步骤和应用范围,进而对这些典型算法的优缺点进行了分析与比较,随后介绍了几种孤立点的典型应用,最后对孤立点检测算法的发展趋势从4个方面进行了展望.  相似文献   

17.
基于局部K-距离的靶场异常数据检测算法   总被引:1,自引:0,他引:1  
航天靶场观测数据是鉴定运载火箭性能的重要依据,数据中的异常值严重影响数据处理的质量.传统的靶场异常数据处理方法不能适应日益提高的精度要求.为了解决这一问题,文章分析了测量数据中粗大误差的特点,提出了一种适合靶场观测数据的基于局部K-距离的异常数据检测算法LKD(Local K-Distance).该算法通过计算对象与最近k个最近邻中的最大距离来分析数据对象的稀疏程度,从而检测异常值.实验结果证明,该方法简单快速,对粗大误差的检测有效率可达90%以上.  相似文献   

18.
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端.  相似文献   

19.
自动相关监视广播(ADS-B)与空管二次监视雷达(SSR)是空中交通管制的2种重要监视手段,其中ADS-B是目前正在推出的通信协议,在下一代空管监视系统中将会发挥重要作用.然而,ADS-B协议中安全措施缺乏,容易遭受虚假数据注入的攻击.为了识别ADS-B中的异常数据,利用与其同步的SSR数据及通过Kalman滤波得出的的协方差矩阵,得到一组具有多维属性特征的样本数据,使用支持向量数据域描述的方法(SVDD)训练样本数据,可以得到用于检测异常的分类器.利用此分类器检测之后收到的ADS-B数据,从而识别出异常数据.通过仿真实验表明,该方法对于ADS-B异常数据具有80%以上的正确识别率,其中对于固定偏差注入的检测虚警率为5%,漏警率为0,对于随机偏差注入的检测虚警率为5%,漏警率为12.5%,验证了该方法的可行性.  相似文献   

20.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号