首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

2.
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度.  相似文献   

3.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

4.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

5.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

6.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

7.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

8.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

9.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

10.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

11.
数据是高校管理信息化产生的最重要的无形资产,数据的丢失或者损坏都将极大地损害教学、管理和科研工作的正常开展.Oracle RAC是目前使用最为广泛的数据库集群化管理方式,在此基础上开展DataGuard数据保护技术的应用研究,可以弥补集群数据库环境在数据容灾、备份和故障恢复方面的不足,提升数据的安全性,确保高校各类应用系统的正常运行.  相似文献   

12.
数据预处理在商业企业数据仓库的应用   总被引:1,自引:2,他引:1  
数据预处理是数据挖掘过程中重要环节 ,对数据预处理技术进行研究具有现实意义。文章在介绍数据预处理方法的基础上 ,结合大型商业营销企业数据仓库数据的特点和数据挖掘过程中对数据的要求 ,详细论述了数据预处理技术在大型商业营销企业数据仓库中的应用 ,提出改善数据质量是预处理技术的关键。  相似文献   

13.
随着人类社会逐步迈入以情感计算、自然语言处理等智能技术为核心支撑的人工智能时代,数据的战略资源地位日益凸显,数据治理已成为推进高校教育治理现代化的关键工具。人工智能赋能高校数据治理的基本逻辑主要体现在数据管理、数据质量、数据决策与数据服务4个层面。高校数据管理忽视“多方协同管理”、缺乏相对统一的数据质量标准、数据决策在权责限定与顶层设计方面存在缺失、数据服务潜能激发不力制约数据价值高效释放等可被视为人工智能赋能高校数据治理的现实挑战。对此,应创设落位智能共管的高校数据管理职能优化机制、完善校本化高校数据挖掘与共享质量标准、构建基于责权厘定的智能化数据决策体系、优化指向数据价值释放的智能数据服务体系。  相似文献   

14.
从一般数据库管理的角度出发,论述Excel管理数据库的方法。这种“表格”式的数据库管理方法将提供给用户一种新颖的设计方法和简单的使用操作。具有很大的推广价值。  相似文献   

15.
石油勘探技术发展迅速 ,需要一个集地震、测井、地质 3种数据为一体的勘探数据库来支持新的研究工作 .对包括地震资料处理、解释等资料的存储、应用方法进行了探索 ,提出了一种适合于中小油田的地震数据管理方案 .通过分析地震资料处理、解释产生的各类数据及其特点 ,从存储管理方法、数据规范化、质量控制方法、应用支持方法、数据服务方法等方面进行了详细论述  相似文献   

16.
讨论了文题实现方法,介绍了该数据库的总体结构。CPPDB利用dBASE Ⅲ支持建库,数据独立性高,修改、扩充方便。CPPDB存储了468种物质的29种物性数据,具有较强的物性估算和图形输出功能。  相似文献   

17.
数据仓库清洗技术讨论   总被引:4,自引:0,他引:4  
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法.  相似文献   

18.
数据的融合与应用与日常生活有着多方面的联系,尤其是在大数据和智能化时代,促进多元异构数据的融合和智能化的数据处理,对发挥数据作为生产要素的作用具有十分重要的理论意义和实际价值.介绍了大数据在城市、交通、医疗、电商等领域的融合及可视化应用.重点说明了海量数据、小数据分析面临的难题,并讨论了人与数据融合、数据融合共享与商密保护、开源软件与数据安全管理、数据融合中AI技术的两面性等挑战.  相似文献   

19.
大数据系统中数据源多,数据规模大,且数据具有异构异质的特点,为满足各种数据集成需求,如何快速高效地整合数据就显得越来越重要且具有挑战性。数据虚拟化能够灵活地实现各种数据集成需求,介绍数据虚拟化的概念、优势及应用需求,给出一种数据虚拟化系统架构,并对其中的数据虚拟化平面与管理平面以及各层的功能进行了阐述。重点针对数据虚拟化系统中存在的一些关键问题与挑战进行了详细分析,给出了需要进一步研究的课题与方向。  相似文献   

20.
数据清理在数据仓库与数据挖掘中有着重要而广泛的应用。作者论述了数据清理的基本概念、作用和方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号