首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于改进距离的孤立点检测方法   总被引:1,自引:0,他引:1  
局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

2.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

3.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

4.
研究局部切空间排列方法(LTSA)对离群点的敏感性,提出一种基于离群点检测的鲁棒局部切空间排列方法(RLTSA).该方法用样本点到切空间的投影距离检测离群点.在构造样本点局部邻域时,RLTSA尽可能排除离群点,以构造稳定的局部邻域,而对离群点,RLTSA把它们投影到更高维的切空间,以减少离群点的投影距离. 模拟实验和实际例子说明,新方法能提高局部切空间排列方法处理离群样本点的能力.  相似文献   

5.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

6.
在基于距离的孤立检测算法的基础上,讨论了基于距离和的孤立点检测算法,并将CURE聚类算法中使用的抽样算法应用于对该算法中的数据抽取,并创新地将该算法应用于纳税行为分析.结果表明,此算法可以有效地检测出纳税行为中的异常现象即孤立点,对纳税行为的分析有非常有效的作用.  相似文献   

7.
对经典的基于距离的孤立点挖掘算法进行了改进,引入"关键属性",即减少了挖掘的数据量,从而提高了孤立点挖掘的效率,并且改进常用距离度量,用改进的加权曼式距离进行计算,降低了数据分布不均给检测结果带来的影响,同时改进后的挖掘算法在不影响挖掘结果的情况下取消了对参数设置的要求,给出了孤立点孤立的程度.  相似文献   

8.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

9.
针对入侵检测中异常点误报率较高的问题,提出了改进KNN与异常点检测算法相结合来处理数据的方法,以降低入侵检测误报率.该方法首先采用卡方特征选择方法进行数据特征选择,其次采用孤立森林、距离、局部异常因子(IDL)结合查找出异常点,然后使用SMOTE平衡数据,使得所有的样本达到一个类平衡状态,再采用KNN分类.最后采用公开...  相似文献   

10.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

11.
针对核主成分分析(kernel principal component analysis,KPCA)和局部切空间排列算法(local tangent space,LTSA)在降维过程中无法兼顾保持数据全局结构特性和局部结构特性的问题, 利用核函数的可线性叠加性质,提出一种将KPCA算法与LTSA算法融合的非线性降维算法.该算法能使故障数据集经过降维后同时保持数据样本间的全局距离关系和局部邻域关系.应用验证表明:本算法可以准确地提取故障数据集中所包含的全局与局部结构特征模式,使故障分类的结果更明晰、更准确、更有效.  相似文献   

12.
基于纵横距离的单纯异常点检测算法及应用   总被引:1,自引:0,他引:1  
首先讨论了异常点挖掘在数据挖掘过程中的重要性,产生异常点的原因,以及目前用于检测异常点的常用算法,指出了单纯应用距离法的局限性,提出了基于纵横距离的异常点检测算法,并给出了基于学生成绩检测的应用实例,该方法不需要进行大量的样本训练,在异常点检测方面有较好的效果.  相似文献   

13.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

14.
对几种孤立点检测算法进行介绍,总结它们的特点.针对孤立点检测算法的一些弊端和瓦斯浓度的实际情况,选择一个基于DS(距离和)的孤立点检测算法实现对瓦斯浓度的异常数据进行分析处理,找到真正的异常数据,保证煤矿安全预警的准确性.  相似文献   

15.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

16.
剔除支持向量回归中异常数据算法   总被引:1,自引:0,他引:1  
定义了回归问题中异常数据及其不满足回归映射关系差异程度的度量,分析了回归问题中理论映射模式与回归估计模式关系,提出并证明了回归问题中逐个剔除异常数据,建立回归估计模式逐步逼近理论模式的逐步逼近定理,并构建了以逐步逼近定理为理论依据的剔除支持向量回归中异常数据算法,理论分析了算法的收敛性和有效性。然后,引入逐步搜索算法改进剔除异常数据算法以解决大规模样本的支持向量回归中异常数据剔除问题,理论分析显示改进算法也是收敛的和有效的。最后,应用给定已知函数生成样本和UCI机器学习数据库样本数据仿真实验,结果显示算法是有效的和鲁棒的。  相似文献   

17.
软件漏洞检测在信息物理融合系统中通常使用模糊测试(Fuzzing)技术。针对Fuzzing技术中存在大量冗余的测试样本,且样本探测异常的有效性较低的情况,提出一种面向软件漏洞检测的Fuzzing样本优化的方法。首先筛除随机样本中软件不接受的样本,并通过改进的动态规划算法获得初始样本的精简集,以减小初始样本的数量;然后在测试过程中跟踪污点传播路径,利用Simhash和海明距离的改进算法求解样本传播路径相似度,通过删除相似度较高的样本进一步降低样本冗余;最后对触发异常的样本进行遗传变异构建新的测试样本,以增加样本的有效性。通过实验结果可以看出,相较于利用基于贪心算法和基于异常分布导向的方法,这里提出的方法有效减小了测试样本冗余,并且提升了测试样本的有效性。  相似文献   

18.
基于Bayesian方法的参数估计和异常值检测   总被引:1,自引:0,他引:1  
异常值检测是当前数据分析研究中的一个重要研究领域。模型中的异常值会直接影响建模、参数的估计、预测等问题。基于模型的异常值检测,传统的做法是先对模型参数进行估计,再进行异常值检测。而异常值的存在会影响参数估计,从而导致下一步异常值检测的不可靠;反之异常值检测也会影响参数估计。针对这些不足之处,提出了基于 Bayesian 方法的参数估计和异常值检测,此方法可以将参数估计和异常值检测同时实现,具体做法是在线性回归模型中引入识别变量,基于 Gibbs 抽样算法,给出识别变量后验概率的计算方法,通过比较这些识别变量的后验概率进行异常值定位,同时给出参数的估算方法。通过大量的模拟实验,结果表明,与传统方法相比,提出的方法对异常值更灵敏。  相似文献   

19.
针对隔离森林(iForest: isolation Forest)算法对局部异常点检测能力较低, LOF(Local Outlier Factor)算法 检测时间较长的问题, 提出了基于瀑布型混合技术的隔离森林算法 iForest-WHT(isolation Forest based on Waterfall Hybrid Technology)。 该算法借鉴瀑布型混合技术思想, 将隔离森林算法作为过滤器, 以分割路径为阈 值判断依据, 将路径小于阈值的数据放入候选异常子集, 继而使用考虑极值影响的改进的 LOF 算法对候选异 常子集进一步精化, 得到更加精确的异常点。 实验结果证明, 该算法能以较高的效率识别局部异常点, 提高了 算法的 F 1 值, 并且降低原 LOF 算法的误检率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号