首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

2.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

3.
针对网络入侵检测系统中的一般聚类算法速度较慢和精度较低的问题,提出了一种基于简化群优化的最优路径森林聚类算法(SSO-OFC).首先,将数据集解析为图,将其节点作为样本;然后,将每个样本连接到其给定特征空间中的k-近邻,图的节点由它们的概率密度函数(pdf)值加权得到;最后,通过样本及k-近邻之间的距离计算得到pdf值.提出的算法主要贡献是快速估计最佳k值,并将最优路径森林聚类应用于网络入侵检测.在5个公开的数据集上进行实验.结果表明,SSO-OFC的精度非常稳定,除了KddCup数据集,其他数据集上的精度都在95%以上,相比基于数据聚类的SSO和自组织映射更加稳定有效.  相似文献   

4.
针对基于支持向量机算法的网络入侵检测方法,对交错严重的大规模复杂样本集,分类面附近的样本被正确分类可信度低,基于k近邻算法的检测方法测试结果不稳定等问题,提出一种将k近邻与支持向量机相结合的网络入侵检测方法。在分类时,计算待识别的网络连接记录样本与最优分类超平面的距离,如果距离大于预设阀值,采用支持向量机算法对连接记录进行分类,否则采用k近邻法对连接记录进行分类,同时为减少检测方法受样本分布不均衡的影响,采用带权重因子的欧式距离来度量样本间的相似度。最后在KDD99数据集上进行仿真实验,结果表明,相对于单一的支持向量机或k近邻算法的网络入侵检测方法,k近邻与支持向量机相结合的入侵检测方法可以进一步提高网络入侵检测的正确率,是一种较好的网络入侵检测方法。  相似文献   

5.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

6.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

7.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

8.
提出了一种快速不确定数据流上的离群点检测算法. 采用分层次划分思想给出了适用于流式数据的索引构建方法,并为索引结构中的叶子结点增加了部分存储信息,使得在数据更新时新流入的数据点可以利用中间结果信息直接完成批量过滤,降低计算成本. 通过分析离群概率值求解的递推规律,给出了一种全新的离群概率值求解方案,该方案可以最大可能地避免全近邻集合的迭代计算,减少了大量的非离群点计算代价,从而加快处理速度. 实验结果表明,快速不确定数据流上的离群点检测算法能够有效地提高检测效率.  相似文献   

9.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

10.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

11.
为了提高空间关键字移动k近邻查询处理效率,提出关键字影响集的概念,并设计了一种基于关键字影响集的空间关键字移动近邻查询并行处理方法.该方法包含一种并行查询算法和一种并行验证算法.首先,采用并行查询算法计算近邻结果;然后,确定查询区域,并在区域内查找包含的关键字影响集;最后,在查询者移动时不断通过并行验证算法验证影响集,以实现空间关键字移动近邻查询处理.实验结果表明:这2种算法的时间复杂度分别为O((log D+k)/k)和O(logk),均为现有对应算法的O(1/k),其中D为空间对象数目.在多核系统上,这2种算法的运行时间均比现有算法低一个数量级.基于影响集的并行查询处理方法避免了基于安全区域的移动k近邻查询处理方法中更新代价和更新频率难以同时取得最优的固有缺点,可以高效地处理关键字移动k近邻查询.  相似文献   

12.
针对传统离群点检测方法精确度不高的问题,提出了一种同时基于全局和局部视野综合考虑的离群点检测方法,并将其成功应用于事务图数据集的离群点检测。该方法利用极大公共频繁子图来测量任意两个事务图之间的相似度,提出利用基于公共近邻的裁剪方法对相似矩阵进行裁剪,通过计算数据结点的往返距离得出各个结点的离群值评分,弥补了传统基于稳态分布随机游走的离群点检测方法的缺陷。实验结果表明:该方法在事务图数据离群点检测方面的性能明显优于基于subdue的方法,精确度和错误报警率以及召回率提高了约10%。  相似文献   

13.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

14.
针对学生评教数据中的离群点问题,根据消极评教数据产生的方式及特点,提出了一种基于几何特征的学生评教数据离群点检测算法.该算法通过分析样本的几何特征,计算样本的离群程度,完成离群点检测,共分为3步进行:(i)依据教学质量评价数据,在几何特征空间中建立样本的点映射;(ii)从形状相似度、距离相似度2个方面构建判别空间,对几何特征空间中的样本点进行分析运算,得到样本点在判别空间中的点映射;(iii)以基于半监督近邻的方法对判别空间中的样本进行检测.实验结果表明:该算法检测精度较高,在高校教师教学效果中有较好的应用价值.  相似文献   

15.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

16.
将高维数据投影在子空间中,是解决"维灾"的有效途径之一。从提高挖掘效率的角度,给出一种新的基于子空间的两阶段离群检测算法,利用密度阈值筛选候选离群对象减少计算量。该算法首先,计算每个数据对象在每一维的密度比,所有维的密度比乘积取对数平均作为密度系数,并选取候选离群对象;其次,候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。  相似文献   

17.
为了提高异常检测算法在高维数据上的性能,提出了一种基于稀疏表征的孤立点检测(ODSR)方法.将实例表征为其他实例的稀疏线性组合,得到所有实例的近邻关系矩阵,并使用基于图谱理论的谱聚类方法识别异常点.该方法具有自动选择近邻的优势,能有效地得到近邻关系,并解决传统近邻算法中的k值选择困难问题.将ODSR与6种流行的异常检测算法在11个真实数据集上进行了综合实验比较,结果表明ODSR的复杂度及曲线下面积(AUC)值及稳定性更高.  相似文献   

18.
目前,对于离群数据挖掘算法研究颇多,但对于离群数据挖掘结果可理解性和可解释性的研究相对较少。采用相关子空间,给出一种MapReduce编程模型下的上下文离群数据挖掘算法。该算法利用局部稀疏差异度,确定相关子空间,并计算其数据对象离群因子值;将离群因子和相关属性维,定义为数据对象的上下文信息,提高了数据对象的可理解性;选取离群因子最大的N个数据对象,作为上下文离群数据;利用MapReduce编程模型,实现了一种上下文离群数据并行挖掘算法;最后,采用UCI数据集,实验验证了该算法的可解释性和有效性。  相似文献   

19.
针对传统局部线性嵌入算法在挖掘局部流形结构时未充分考虑样本邻居分布信息,且在降维过程中默认样本具有相同的重要性导致提取鉴别特征不明显的问题,提出基于共享近邻的加权局部线性嵌入(weighted local linear embedding based on shared neighbors, SN-WLLE)算法,并用于滚动轴承故障诊断.该算法首先使用余弦距离划分样本邻域;其次计算样本邻域对相似度用以评估样本共享近邻信息,并结合样本的6种邻居分布修正局部结构挖掘,提高多共享近邻的k近邻重构准确性;接着从多流形的角度评估样本点与近邻点间的稀疏分布一致性,以获得样本的重要性指标,并在低维空间保持该信息,进而提取准确的鉴别特征;最后结合KNN分类器构建出完备的轴承故障诊断模型.采用凯斯西储大学轴承数据集和实验室测试平台轴承数据集,从可视化评估、定量聚类评估、故障识别精度评估及鲁棒性评估等方面进行分析.结果表明:SN-WLLE算法的F值保持在108以上水准,平均故障识别精度最低可达0.973 4,不仅具有较好的类内紧致性与类间可分性,还对近邻参数k具有低敏感性.  相似文献   

20.
基于单元的离群数据挖掘是一类典型的离群数据挖掘方法,尽管具有可以快速识别离群数据和修剪非离群数据等优点,但由于只从单元的角度修剪非离群数据,可能使一些单元无法准确的确定离群数据。给出了一种基于网格单元和P权值的离群数据挖掘算法。该算法首先将数据集的每维均分,划分网格单元,并在网格单元中,筛选出离群数据和正常数据网格单元;对既含有离群数据又有正常数据的网格单元,采用P权值的方法,来度量和确定离群数据,从而进一步提高了离群挖掘精度;最后,采用UCI数据集,实验验证了该算法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号