首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

2.
以滚动轴承为研究对象,根据性能退化曲线的现实意义定义了对性能退化特征提取具有指导意义的评价方法,该方法由初始退化点、初始敏感性、失效突变性和趋势一致性4个指标构成,并根据性能退化曲线的物理特性设计了性能退化特征评价的定量化指标;利用时间序列线性化突变点检测的方法给出了评价指标的计算过程,为性能退化特征的选取提供了更为直观的依据。使用国际通用的Swiss数据集进行验证,实验结果表明该评价方法可以全面评价各个性能退化特征对性能退化过程的表征效果。为了更好地保持原始高维数据的空间位置关系,提出了基于邻域参数自适应选取的局部线性嵌入(LLE)算法,通过自适应局部权值向量来保存高维空间数据的局部线性结构,将多个局部线性进行叠加来不断地逼近全局的非线性,有效提高直接使用高维数据反映原始状态性能的可靠性和稳定性。使用滚动轴承加速寿命试验数据,对比邻域参数自适应LLE算法和常规LLE算法所提取的性能退化特征,验证了邻域参数自适应LLE算法可以保留更多原始高维数据的信息。  相似文献   

3.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

4.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

5.
改进了局部线性嵌入LLE变换中的两个参数最近邻点数目K和高维空间维数d的选择方式,然后将数据集的敏感属性用随机LLE方法嵌入到高维空间中,从而使敏感属性得到加密保护,由于LLE方法可以保持数据集的内部拓扑结构,可使加密变换后的数据集以同样的精度找到正确的最近邻点.通过在一个具体旅游数据集上的实验结果表明,该算法能使安全性和精确度都达到要求.  相似文献   

6.
人体行为识别是人工智能与模式识别领域一个重要的研究方向,具有极广泛的应用前景.近年来应用局部线性嵌入的流行学习方法 LLE进行人体行为识别成为研究热点.但是传统LLE要求采集密集样本点,且要求样本点分布平滑均匀,而人体运动样本数据往往分布稀疏,无法满足LLE对样本点的要求.本文提出的基于全局距离的自适应LLE采用具有全局因子的距离计算方法确定近邻,缩短分布稀疏的样本点的相对距离,使样本点变得紧凑.同时加入全局因子可以使分布距离差异较大,分布不均匀的样本点重新布局,整体变得平滑均匀,有效克服了传统LLE的缺点.另外,该方法改进了传统LLE确定嵌入维度的过程.通过计算输入空间样本欧氏距离与嵌入空间样本欧氏距离的残差来评估嵌入维度,自适应确定人体动作流形的本质维度.改进后的方法应用于光学动作捕捉数据实现人体行为识别,比传统LLE提高了计算性能,并获得了更高的人体行为识别率.  相似文献   

7.
针对传统的基于距离的离群点识别方法难以直接有效地应用于高维数据且识别效果受参数影响的问题,本文提出了一种自适应的高维离群点识别方法,该方法利用经遗传算法优化的高斯受限玻尔兹曼机将高维数据非线性地映射到低维空间,然后通过自适应的离群点识别方法在低维数据空间进行离群点识别。采用UCI高维数据和中药高维数据进行验证实验,实验结果表明自适应的高维离群点识别方法能自适应地、有效地识别出高维数据中的离群点。  相似文献   

8.
分析了人脸与非人脸之间的本质区别,提出了运用局部线形嵌入(LLE)的非线性降维方法,解决非线性结构的高维数据(图象)低维表示的问题,实现了高维输入数据点映射到一个全局低维坐标系,同时保留了邻接点之间的空间关系(即高维空间的几何结构).此算法不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转不变性.运用LLE算法对图象进行降维,再对降维后的数据运用支持向量机(SVM)分类器进行人脸和非人脸的分类.实验结果表明,该人脸检测方法测率较高,并且不受姿态、表情和光照的影响.  相似文献   

9.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

10.
文章提出了一种粒计算和局部线性嵌入(LLE)相结合的图像处理方法.针对人脸研究领域中高维数据产生的复杂计算度问题,提出了图像粒的方法,并对图像进行处理;对高维数据进行了降维,从而达到降低计算复杂度的效果.实验在Frey人脸数据库上进行,在多个不同粒度的图像粒上分别应用LLE算法,给出人脸姿态和表情分布变化的实验结果,并分析了图像信息的损失情况.实验结果表明图像粒LLE算法对算法复杂度的降低和图像信息的保持是一个有效的方法.  相似文献   

11.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

12.
小世界邻域优化的局部线性嵌入算法   总被引:1,自引:0,他引:1  
通过分析稀疏数据或噪声数据,导出局部线性嵌入(LLE)算法出现失效的原因,由此提出了一种基于小世界邻域优化的局部线性嵌入(SLLE)算法.将复杂网络算法引入到流形学习中,利用小世界算法对LLE算法进行数据优化,并以最短路径和局部集群系数作为局部优化参数,解决了数据点不规则时以欧氏空间作为邻域判别标准在构建局部超平面造成嵌入结果扭曲的难题.通过3组标准测试数据集合比较了SLLE、LLE算法,结果表明SLLE算法的计算效果、鲁棒性、非理想数据的降维结果均优于LLE算法,且计算正确率至少提高10%.  相似文献   

13.
离群点检测是数据挖掘领域研究的热点之一,主要目的是识别出数据集中异常但有价值的数据点. 随着数据规模不断扩大,使得处理海量数据的效率降低,随即引入分布式算法. 目前现有的分布式算法大都用于解决同构分布式的处理环境,但在实际应用中,由于参与分布式计算的处理机配置的差异,现有的分布式离群点检测算法不能很好地适用于异构分布式环境. 针对上述问题,本文提出一种面向异构分布式环境的离群点检测算法. 首先提出基于网格的动态数据划分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各处理机的计算资源,同时根据数据点的空间位置信息进行数据划分,可有效减少网络通信. 其次基于GDDP算法,提出了异构分布式环境中并行的离群点检测算法(GDDP-based Outlier Detection Algorithm,GODA). 该算法包括2个阶段:在每个处理机本地,按照索引中数据点的顺序进行过滤,通过2次扫描得到离群点候选集;判断候选离群点需要进行网络通信的处理机,使用较低网络开销得出全局离群点. 最后,通过大量实验验证了本文提出的GDDP和GODA算法的有效性.  相似文献   

14.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

15.
为充分利用表征过程运行工况的数据特征信息,提高化工过程的故障检测性能,提出一种基于动态结构保持主元分析(DSPPCA)的过程故障检测方法。首先对原始数据采用变量相关性分析建立自回归模型,构建包含动态特征的数据集,进一步综合考虑主元分析法(PCA)和局部线性嵌入(LLE)流形学习算法中数据点之间的近邻关系,融合得出新的目标函数,同时,运用局部线性回归的方法获得高维样本的嵌入映射,特征提取后在特征空间和残差空间分别构造监控统计量进行故障检测。Swiss-roll数据集的降维结果及TE过程的仿真研究结果表明,DSPPCA算法可以取得较好的特征提取效果,具有较高的故障检测性能。  相似文献   

16.
一种面向分类的核局部线性嵌入算法   总被引:2,自引:0,他引:2  
局部线性嵌入算法(LLE)已被广泛运用于模式分类,但它存在两个缺点。首先LLE是一种无监督学习方法,没有很好地利用类别信息;其次,LLE算法假设数据在局部上的分布是线性的,如数据非线性分布则效果有限。对此,提出了一种解决分类问题的核局部线性嵌入算法。利用KLLE算法的思想寻找样本的内在流形分布,并通过重构误差来判定该样本的类别。所提方法考虑了样本的类别信息,也适合于处理局部非线性分布的数据。在Yale人脸库的实验结果验证了其有效性。  相似文献   

17.
基于单元的离群数据挖掘是一类典型的离群数据挖掘方法,尽管具有可以快速识别离群数据和修剪非离群数据等优点,但由于只从单元的角度修剪非离群数据,可能使一些单元无法准确的确定离群数据。给出了一种基于网格单元和P权值的离群数据挖掘算法。该算法首先将数据集的每维均分,划分网格单元,并在网格单元中,筛选出离群数据和正常数据网格单元;对既含有离群数据又有正常数据的网格单元,采用P权值的方法,来度量和确定离群数据,从而进一步提高了离群挖掘精度;最后,采用UCI数据集,实验验证了该算法的有效性和可行性。  相似文献   

18.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

19.
针对传统离群点检测方法精确度不高的问题,提出了一种同时基于全局和局部视野综合考虑的离群点检测方法,并将其成功应用于事务图数据集的离群点检测。该方法利用极大公共频繁子图来测量任意两个事务图之间的相似度,提出利用基于公共近邻的裁剪方法对相似矩阵进行裁剪,通过计算数据结点的往返距离得出各个结点的离群值评分,弥补了传统基于稳态分布随机游走的离群点检测方法的缺陷。实验结果表明:该方法在事务图数据离群点检测方面的性能明显优于基于subdue的方法,精确度和错误报警率以及召回率提高了约10%。  相似文献   

20.
一种自适应局部线性嵌入与谱聚类融合的故障诊断方法   总被引:4,自引:1,他引:3  
针对数据维数高、非线性且从高维观测空间分析数据模式困难的问题,将改进的流形学习算法引入到数据聚类中,提出了一种结合自适应局部线性嵌入和递归调用规范切融合的新方法.采用自适应局部线性嵌入对原始数据进行非线性降维,应用递归调用规范切对低维空间数据进行聚类,通过对3组UCI标准测试数据集的仿真实验表明,新方法能够将高维数据有效地映射到低维本质空间,克服了传统方法对数据集结构的依赖性,从而显著提高了谱聚类算法分类的准确性和稳定性.同时,对于田纳西-伊斯曼过程的数据实验,表明了该方法对故障模式识别的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号