首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

2.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

3.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

4.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

5.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

6.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

7.
为提升异常检测算法在处理局部异常、异常簇和复杂分布数据集时的检测精度,降低对数据先验信息的依赖性,提出一种基于逆K最近邻的密度峰值异常检测方法(Rknn-DP).首先结合逆K最近邻(Rknn)改进密度峰值算法中局部密度和相对距离的计算方式,通过引入邻域信息更准确地刻画异常点的特征,然后根据特征分布选取局部密度低、相对距离高的点作为粗选异常点集合,最后通过逆K最近邻计算粗选集合的异常因子,根据异常程度进行剪枝,排除噪声点、降低连带错误效应,自适应得到最终的异常点集.通过与ABOD、LSCP、HBOS、IForest等算法在真实数据集与人工数据集上的对比实验,证明了Rknn-DP算法的自适应性和有效性.  相似文献   

8.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

9.
通过对当前有代表性的离群数据检测方法的分析和比较,总结了各方法的特性及优缺点.针对大数据的数据量大、维数高的特性,分析了离群点检测方法的改进策略,并以T-ODCD算法和AROD算法为例,进一步说明离群点检测改进策略.  相似文献   

10.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

11.
入侵检测是一种重要的网络安全技术.现有的无监督方法虽然能在未经标记的数据上找出异常,但时间复杂度相对较高,不适用于入侵检测中大规模的数据集.针对这一问题,提出了一种新的发现异常的无监督方法,通过使用聚类和K-近邻距离和技术,克服了原有方法的缺点,具有较低的时间复杂度和较高的入侵检测效率.  相似文献   

12.
本文提出一种基于内容和最近邻(k-近邻)的多臂老虎机推荐算法:把推荐问题转化成多臂老虎机问题,把冷启动问题转化成EE(explore exploit)问题;通过观察用户特征,以用户特征为内容,计算用户之间的相似度并得出用户的最近邻;最近邻用户基于内容对推荐池物品进行预期评价,根据用户最近邻的预期评价情况,选择综合最优的物品推荐给用户. 并通过采用来自Movielens和Jester的真实数据集进行实验,实验结果表明:结合内容和最近邻算法的推荐算法更优且更具实用性,尤其在解决冷启动问题上效果显著.  相似文献   

13.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

14.
空间偏好查询是当前空间查询研究中的一类热点问题,而现有的空间偏好查询不能有效支持面向组用户的位置服务应用.为此,提出一类新型空间偏好查询——面向组近邻的Top-k空间偏好查询(Topk spatial preference query for group nearest neighbor).该查询通过查找特征对象的λ子集组近邻最终为用户返回评分值最高的前k个λ子集.为了高效执行这一查询,给出了两种查询算法:TSPQ-G及TSPQ-G*.其中TSPQ-G*在TSPQ-G的基础上,通过空间剪枝及高效的特征对象索引树遍历策略大幅减少I/O代价,进而有效提高了该查询的执行效率.实验采用多个数据集验证了所提算法在不同参数设置下的有效性.  相似文献   

15.
连续近邻查询(CNN)是时空数据库中一种重要的查询类型。Voronoi图解决连续近邻查询问题,思想简单明晰,但Voronoi图构造代价太高,尤其是高阶的Voronoi图。本文利用分枝限界的思想去界定预创建Voronoi图生成点范围的上限。提出了一种动态地创建局部Voronoi图的办法解决连续近邻查询问题。这种方法只是在给定查询段上所有点的k个近邻范围上限内创建一个局部的k阶Voronoi图,这样会大大降低基于Voronoi图的连续k近邻查询的代价。  相似文献   

16.
用于文本分类的快速KNN算法   总被引:1,自引:0,他引:1  
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.  相似文献   

17.
空间k近邻查询的新策略   总被引:13,自引:0,他引:13  
有效执行空间k近邻查询是地理信息系统尤其关心的问题,空间近邻查询是基于空间索引的树的遍历过程,苦测量距离和剪枝策略选取适当,可以极大地减少搜索空间所需访问的事点数,基于Rousspoulos等提出的测量距离,提出2个新的近邻搜索剪枝策略,用于空间k近邻查询,给出了搜索算法,并用算例表明该策略具有更好的剪枝效果,提高了空间k近邻查询的效率。  相似文献   

18.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

19.
提出多策略提升的局部切空间排列算法来解决常规局部切空间排列降维在高光谱影像分类中计算复杂度高的问题.通过引入随机映射来预先减少高光谱影像波段数,降低后续k-邻域和局部切空间构建的计算复杂度;采用递归兰索斯切分算法快速构建近似k-邻域,降低常规k-邻域构建的计算时间;采用快速近似奇异值分解算法提高全局排列矩阵的本征分解计算速度.利用两个不同的高光谱数据集,设计4组实验来分析多策略速度提升的局部切空间排列算法的计算性能和分类效果.实验证明,相比常规局部切空间排列方法,多策略提升的局部切空间排列方法损失约1%左右的总体分类精度却能够提高至少3倍的计算速度.  相似文献   

20.
基于凸包的k局部超平面距离分类方法,通过改进k近邻算法在处理小样本问题时的决策边界而显著提高分类性能.但是,该方法对噪声和类的数目敏感,并且在一类样本"包围"另一类样本时,由于外围类凸包与内部样本的距离为零而导致分类错误.针对上述问题,提出了k子凸包分类方法,该方法融合了k近邻分类和凸包技术的优点,首先寻找测试样本的k近邻,然后在该邻域中计算测试样本到相应类的子凸包的距离,并根据距离大小来确定该测试样本的类别,有效克服了k局部超平面距离分类存在的不足.大量实验表明,文章提出的k子凸包分类方法在分类性能上具有显著的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号