首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

2.
基于局部密度的差异来发现离群点的检测方法很难处理离群点聚集在一起的情况,提出一种基于密度的离群点检测方法,该方法先采用DBSCAN聚类算法检测出全局离群点,然后借鉴局部离群因子的评估策略来确定大类簇边界区域内的"错聚"样本点,进而从"错聚"样本点的邻居点中依据距离和局部密度识别出其他局部离群点。实验结果表明该方法具有一定的可行性和有效性。  相似文献   

3.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

4.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

5.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

6.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

7.
在对监狱服刑人员再犯罪预测与危险性评估应用现状进行分析的基础上,提出了一种基于大数据的监狱服刑人员危险性识别与预测架构体系.在该体系的模型层,针对不同的价值密度、不同的数据类型,重点对架构中的统计模型、离群点检测模型、集成分类模型在服刑人员危险性识别与预测中的应用算法进行了描述,尤其是使用R软件包实验了服刑人员危险性集成分类识别与预测,并给出了分类预测误差.基于大数据的服刑人员危险性识别与预测体系可实现对服刑人员危险性的个性化、精准化预警,为大数据时代监狱的监管安全提供了可靠保障.  相似文献   

8.
针对信用评价数据存在离群点和噪声问题, 提出一种基于离群点剔除的支持向量机(SVM)信用风险评价模型. 该模型利用模糊c-均值聚类算法剔除样本离群点, 采用粒子群算法优化支持向量机分类参数, 进而提高支持向量机的分类性能. 将该方法应用于信用风险评价中的结果表明, 相比于其他模型, 该方法分类精度更高.  相似文献   

9.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.  相似文献   

10.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

11.
聚类分析是一种重要的数据挖掘方法,K-means算法是其中最常用的基于划分的方法。本文提出了一种基于初始均值点离散化的改进K-means算法。改进的算法在选取初始均值点时,尽量使初始均值点的分布离散化,解决了传统算法中随机选取初始均值点所造成的一些问题。同时,为了得到更高质量的聚类结果,本文进行了数据集中的离群点检测和自动确定参数k的最佳取值两方面的前期处理工作。实验证明,改进后的算法明显优于传统算法。  相似文献   

12.
对区域用水的异常模式识别可以为自来水公司实施科学化运行管理提供重要的依据.基于密度的聚类算法与k均值算法相结合,对城市供水管网片区用水进行异常模式识别.首先提取时间和瞬时用水量2个特征,通过k均值算法将所有数据样本分离为不同模式,然后分别对不同模式构建基于密度的聚类算法进行异常点识别.对某地两分区的监测数据进行实验,得到用水异常模式的识别结果与分析.与现有异常检测方案相比较,提出的融合算法所得到的检测结果更具有完整性和准确性.  相似文献   

13.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

14.
为了研究局部离群数据挖掘方法,将K均值聚类算法和基于影响空间的局部离群因子算法相结合,构造了一种基于K均值和影响空间的局部离群因子的方法.该方法首先通过聚类把靠近簇中心密集区域的正常数据剔除,然后再调用INFLOF算法对剩余数据进行挖掘,从而减少了中间结果的存储,大大减少了算法的运行时间.最后分别通过随机数据和实际数据实验,验证了KINFLOF算法在离群数据挖掘中的准确性和运行效率.  相似文献   

15.
为提高异构物联网感知设备可信数据的挖掘和检测能力,提出基于局部子空间的可信数据多标记特征选择算法.建立异构物联网感知设备可信数据的大数据分布式存储结构模型,采用大数据信息融合方法进行异构物联网感知设备可信数据的可信动态特征度量,提取异构物联网感知数据的关键特征点,采用关联规则挖掘方法检测物联网设备可信数据,建立数据的关...  相似文献   

16.
研究局部切空间排列方法(LTSA)对离群点的敏感性,提出一种基于离群点检测的鲁棒局部切空间排列方法(RLTSA).该方法用样本点到切空间的投影距离检测离群点.在构造样本点局部邻域时,RLTSA尽可能排除离群点,以构造稳定的局部邻域,而对离群点,RLTSA把它们投影到更高维的切空间,以减少离群点的投影距离. 模拟实验和实际例子说明,新方法能提高局部切空间排列方法处理离群样本点的能力.  相似文献   

17.
污水处理运行数据中常含有离群点,严重影响污泥膨胀检测效果。针对该问题提出一种基于鲁棒极限学习机的智能检测方法。首先,考虑到极限学习机的输出权值由最小二乘估计获得,易受离群点的影响导致模型鲁棒性较差,通过引入M-估计技术构建基于鲁棒极限学习机(RELM)的离群点检测模型,实现离群点的检测和修正。其次,建立基于鲁棒极限学习机的污泥膨胀检测模型,根据污泥膨胀检测模型误差及阈值逻辑完成污泥膨胀的检测。最后,利用污水处理厂采集的运行数据对提出的智能检测方法进行验证。实验结果表明,本研究方法不仅可以实现离群点的有效修正,而且可以完成污泥膨胀的准确检测。  相似文献   

18.
为解决动态场景下不同密度人群的高精度人数统计问题,结合直接检测和回归方法的特点,构建了基于深度学习和特征点数量的人数统计方法。该方法引用基于深度学习的检测和语义分割的方法,检测出图片中人群位置,使用迪里赫雷特混合模型将检测结果聚类,采用基于特征点的方法统计人群数量。在低密度数据段采用低通滤波器的方法平滑平均数据,高密度数据段则设计了聚合三帧预计数结果与帧内检测框平均置信度的数据融合方法融合数据。实验证明,该方法在动态场景人群密度变化的情况下能更准确地统计人数。  相似文献   

19.
通过分析传统基于概率度量的K邻近置信度评估方法,提出一种基于最大差距的置信度评估方法,并在UCI数据集上对两种方法进行对比实验.实验结果表明,基于最大差距的置信度评估方法在宏平均召回率、宏平均精度及所用时间上均优于K邻近置信度评估方法,从而可进一步优化半监督分类学习中数据样本的置信度评估.  相似文献   

20.
为解决岩爆预测中的不确定性问题,将未确知均值分类理论应用于岩爆综合评判中,建立了岩爆发生和分级预测的未确知均值分类理论分析模型.模型选用最大切应力、单轴抗压强度、单轴抗拉强度和弹性能量指数4个指标作为岩爆发生和分级预测的判别因子.将岩爆烈度分为4个等级并作为未确知均值分类理论分析的4个类别.以国内外岩爆工程实测数据作为建立分类标准和模型的样本,以各等级的指标均值作为分类标准.求取未确知测度函数.采用信息熵确定权重,用置信度识别准则进行等级判定.将本研究建立的模型应用到隧道和矿山工程的岩爆预测中,结果表明.未确知均值分类分级预测方法预测结果与实际情况吻合较好,预测精度高,因而是岩爆发生和分级预测的一种有效方法,可在岩爆工程判别中应用和推广.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号