首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

2.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

3.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

4.
孤立点检测问题是数据挖掘领域中的一个重要研究内容.首先对目前有代表性的孤立点检测算法进行综述,详细阐述了其实现的基本原理、实现的步骤和应用范围,进而对这些典型算法的优缺点进行了分析与比较,随后介绍了几种孤立点的典型应用,最后对孤立点检测算法的发展趋势从4个方面进行了展望.  相似文献   

5.
贺彦琨 《甘肃科技》2009,25(22):35-36,34
在时间序列数据挖掘领域,对孤立点的研究已经成为关注的热点。结合证券领域数据在时间和取值方面的相关特征,提出了一种新的孤立点探测方法,以便在海量数据中高效快速的寻找出证券领域数据集合中的孤立点,研究产生这些异常数据的原因,及时发现金融欺诈等违法行为,以便规避风险、保护用户利益。  相似文献   

6.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

7.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

8.
为了从数据集中快速有效地发现孤立点,提出了一种基于网格模型的孤立点检测方法,给出了数据空间的网格划分,定义了网格内孤立点存在性阈值,提出了基于网格的孤立点检测算法,在保证算法有效性的前提下,降低了算法的时间复杂度。  相似文献   

9.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

10.
针对学生评教数据中的离群点问题,根据消极评教数据产生的方式及特点,提出了一种基于几何特征的学生评教数据离群点检测算法.该算法通过分析样本的几何特征,计算样本的离群程度,完成离群点检测,共分为3步进行:(i)依据教学质量评价数据,在几何特征空间中建立样本的点映射;(ii)从形状相似度、距离相似度2个方面构建判别空间,对几...  相似文献   

11.
在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力.  相似文献   

12.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

13.
空间例外是指与其邻域内其它数据表现不一致或者是偏离观测值以至使人们认为是由不同体制产生的观测点.传统的例外挖掘是根据一个非空间属性值进行例外判断,这种方法容易引起判断失误.在对多个属性进行考虑的基础上,提出了一种基于多属性的空间例外挖掘算法,并与属性加权算法在正确性和有效性方面进行了比较分析.实验证明算法可以有效地发现例外数据.  相似文献   

14.
Outlier detection is a very important type of data mining,which is extensively used in application areas.The traditional cell-based outlier detection algorithm not only takes a large amount of time in processing massive data,but also uses lots of machine resources,which results in the imbalance of the machine load.This paper presents an algorithm of the MapReduce-based and cell-based outlier detection,combined with the single-layer perceptron,which achieves the parallelization of outlier detection.These experiments show that this improved algorithm is able to effectively improve the efficiency of the outlier detection as well as the accuracy.  相似文献   

15.
对经典的基于距离的孤立点挖掘算法进行了改进,引入关键属性,即减少了挖掘的数据量,从而提高了孤立点挖掘的效率,并且改进常用距离度量,用改进的加权曼式距离进行计算,降低了数据分布不均给检测结果带来的影响,同时改进后的挖掘算法在不影响挖掘结果的情况下取消了对参数设置的要求,给出了孤立点孤立的程度.  相似文献   

16.
廖列法  姚秀  李奎 《科学技术与工程》2023,23(17):7420-7427
现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用RoBERTa表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题,其次利用数据点的密度分布并结合信息熵改进局部离群因子算法(LOF)来确定离群点个数及数据点集,提高离群点的检测精度,结合RoBERT与改进的LOF在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。  相似文献   

17.
基于自适应核函数的支持向量数据描述算法   总被引:4,自引:0,他引:4  
为进一步提高支持向量分类器的分类精度和运行速度,提出了基于自适应核函数的支持向量数据描述分类算法。该算法的核心思想为:根据信息几何中保角映射的方法构造数据驱动的核函数修正算法,然后再利用修正的核函数训练支持向量数据描述分类算法。试验结果表明,该方法具有较好的分类精度和较快的运行速度。  相似文献   

18.
Outlier detection has very important applied value in data mining literature. Different outlier detection algorithms based on distinct theories have different definitions and mining processes. The three-dimensional space graph for constructing applied algorithms and an improved GridOf algorithm were proposed in terms of analyzing the existing outlier detection algorithms from criterion and theory.  相似文献   

19.
基于改进FAST检测的ORB特征匹配算法   总被引:1,自引:1,他引:1  
针对ORB(oriented FAST and rotated BRIEF)特征匹配算法在实时性要求较高领域效果不佳以及在复杂光照环境下匹配精确率较低的问题,提出了一种基于改进FAST(features from accelerated segment test)检测的ORB算法。首先,对待处理的灰度图像进行分类,剔除掉部分灰度变化率较低的区域,然后提取FAST特征点并计算描述子,最后采用汉明距离完成匹配。此外,在提取FAST特征点时,设计了一种自适应半径,利用图像对比度自适应调整检测半径,当图像对比度突变时依然能够保证期望的特征点数量。实验结果表明,改进后的ORB算法匹配时间缩短了16. 47%,大幅提高了在复杂光照环境下的匹配精确率,具有较强的鲁棒性和实时性。  相似文献   

20.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号