首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
现有离群数据研究主要集中于离群检测.为了对离群数据的来源、分类、含义、行为特征以及离群趋势等进行全面分析,以现有离群挖掘技术为基础,结合已提出的离群约简与关键域子空间等一系列概念及其搜索算法,定义了离群最近邻、原子离群类及离群变异类等概念,提出了离群簇分析及离群趋势分析方法,建立了一种完整的离群数据集特征描述及延伸知识发现的整体框架.通过对移动通信业务数据的离群分析进行具体讨论,表明了这种离群延伸知识发现框架在实际应用中的有效性.  相似文献   

2.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

3.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

4.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

5.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

6.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

7.
数据发掘与数据库中知识发现   总被引:5,自引:2,他引:3  
对数据发掘发展的研究现状及知识发现系统的研究趋势进行分析与探索,在此基础上从一般框架和特定问题的结合上提出新的构想。  相似文献   

8.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

9.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

10.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

11.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

12.
数据是信息时代的重要资源,智能数据分析为发掘它自身的价值起到了很大的作用,但异常数据却给智能数据分析带来了新的挑战。本文提出了异常数据的管理方法,包括不同类型异常数据的分类方法、蕴知性异常数据的筛选方法。从源头上减少噪音性异常数据的方法,以及当前对异常数据进行研究所必须采取的措施。  相似文献   

13.
为了提高交通建模的准确性和可靠性,或者提取重要的有价值的隐藏信息,将离群数据挖掘技术引入交通数据处理.首先分析了3种典型的离群数据挖掘算法:基于统计的方法、基于距离的方法以及基于密度的方法的原理、特点和时间复杂性;其次给出了2个实例分析,一是在建立交通流量预测模型前,将基于统计的方法和基于距离的离群检测方法分别用于交通量时间序列,寻找离群数据;二是将基于距离的方法和基于密度的方法用于路面平整度检测.实例研究表明,离群数据挖掘算法可有效识别异常交通数据,在交通工程领域具有较大的应用潜力.  相似文献   

14.
飞行数据因为野点和噪声的存在给其进一步处理和利用造成了困难。提出了一种基于小波变换残差直方图分析的野点识别方法,能在时间域内精确定位野点,并具有识别少量成片野点的能力。根据飞行数据噪声的特点及去噪要求,在去噪的过程中引入边缘检测,提出了分二进小波尺度乘积和小波阈值收缩两个步骤进行去噪的方法,从而在去噪的同时很好地保留了序列极值点的特性。实验结果表明本文所提方法对飞行数据中存在的质量问题具有较好的清洗效果,野点识别准确,去噪效果良好,并且对类似其它数据的处理也有一定的应用参考价值。  相似文献   

15.
曾宪诺  李轶嵘 《江西科学》2006,24(5):301-305
同一区域内不同城市工业发展的不平衡一定程度上造成了经济发展的区域不平衡,从而阻碍了整体经济的健康发展。空间异常检测为经济发展区域不平衡问题的发现提供了一条有力途径。本文通过提出一种新的空间异常检测算法,应用到检测经济发展区域不平衡的问题上,能够比较好的发现经济发展异常的城市。  相似文献   

16.
为了跟踪肿瘤病灶对周围正常组织挤压变形,以及脑部手术软组织变形对手术的影响,提出了光流估计框架下的多层次B样条自由变形鲁棒形变配准方法.利用光流法约束下的多层次B样条自由变形,通过加密局部控制点以加强局部形变,能有效建模肿瘤信号及异常变形区域的局部较大形变.通过引入鲁棒估计,给予异常信号(病灶、灰度突变或形变不连续区域)以较小的权值,可减小图像灰度差异、局部不连续形变场所造成异常信号对形变配准优化的不利影响.采用了L BFGS方法,可减少内存开销,提高优化速度.实验表明:形变配准算法得到了较好的效果,可较好建模术前和术中脑部医学图像的形变,本配准算法可用于指导图像导向手术.  相似文献   

17.
剔除支持向量回归中异常数据算法   总被引:1,自引:0,他引:1  
定义了回归问题中异常数据及其不满足回归映射关系差异程度的度量,分析了回归问题中理论映射模式与回归估计模式关系,提出并证明了回归问题中逐个剔除异常数据,建立回归估计模式逐步逼近理论模式的逐步逼近定理,并构建了以逐步逼近定理为理论依据的剔除支持向量回归中异常数据算法,理论分析了算法的收敛性和有效性。然后,引入逐步搜索算法改进剔除异常数据算法以解决大规模样本的支持向量回归中异常数据剔除问题,理论分析显示改进算法也是收敛的和有效的。最后,应用给定已知函数生成样本和UCI机器学习数据库样本数据仿真实验,结果显示算法是有效的和鲁棒的。  相似文献   

18.
异常点挖掘的意义主要体现在两个方面.传统观念中,异常点常常被认为是噪声数据或无用数据,分析时的一般方法是排除这些干扰数据,更好地估计模型的参数.然而,随着Lon-Mu Liu.et(2001)在快餐行业的数据中进行了实例分析,异常点挖掘也被用于挖掘异常点本身所蕴含的信息.ARIMAX模型引入了外部变量,可以更好地拟合数据.因而对含异常点的ARIMAX模型,提出了利用Gibbs抽样挖掘其中AO型异常点的方法,最后进行了模拟试验,取得了较好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号