首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于纵横距离的单纯异常点检测算法及应用   总被引:1,自引:0,他引:1  
首先讨论了异常点挖掘在数据挖掘过程中的重要性,产生异常点的原因,以及目前用于检测异常点的常用算法,指出了单纯应用距离法的局限性,提出了基于纵横距离的异常点检测算法,并给出了基于学生成绩检测的应用实例,该方法不需要进行大量的样本训练,在异常点检测方面有较好的效果.  相似文献   

2.
数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端.  相似文献   

3.
针对现实世界中的不确定与不完整数据,根据粗糙集理论的框架提出了一种基于距离的异常检测方法.由于粗糙集理论是处理不确定性与不完整性的一种有效工具,因此该方法可以从不确定与不完整的数据中高效地检测出异常.另外,定义了2种特定的距离度量,用来计算2个对象之间的距离.最后,对粗糙集理论中基于距离的异常检测算法也进行了讨论.  相似文献   

4.
随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率.  相似文献   

5.
基于密度的异常检测算法在入侵检测系统中的应用   总被引:2,自引:0,他引:2  
给出了异常的定义,介绍了几种典型的异常检测算法并比较它们的优缺点,发现基于密度的异常检测算法的局部异常观点较符合现实生活中的应用.阐述了基于密度的异常检测算法的定义及其在入侵检测系统中的具体应用.  相似文献   

6.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

7.
本文给出了K-L距离和信息距离对某类参数变换的不变性;证明了在线性模型中,从K-L距离、信息距离以及似燃距离出发得到的局部影响矩阵是一致的;利用局部影响分析思想来检测各种扰动方式的敏感点,提出一种新的自变量扰动方式,在实例分析中得到了满意的结果。  相似文献   

8.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度.  相似文献   

9.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

10.
基于加权距离的局部离群点检测算法   总被引:1,自引:1,他引:0  
针对不同属性对数据点之间距离贡献的不同,提出了一种用于距离度量的属性加权策略。标称属性通过属性取值的信息熵进行加权,数值属性通过属性取值的标准差进行加权,混合属性根据标称属性和数值属性综合加权,加权策略可以放大离群点与正常数据之间的差别。仿真实验区分不同的属性类型对所提加权策略进行了验证,实验结果证明了策略的有效性。  相似文献   

11.
空间例外是指与其邻域内其它数据表现不一致或者是偏离观测值以至使人们认为是由不同体制产生的观测点.传统的例外挖掘是根据一个非空间属性值进行例外判断,这种方法容易引起判断失误.在对多个属性进行考虑的基础上,提出了一种基于多属性的空间例外挖掘算法,并与属性加权算法在正确性和有效性方面进行了比较分析.实验证明算法可以有效地发现例外数据.  相似文献   

12.
廖列法  姚秀  李奎 《科学技术与工程》2023,23(17):7420-7427
现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用RoBERTa表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题,其次利用数据点的密度分布并结合信息熵改进局部离群因子算法(LOF)来确定离群点个数及数据点集,提高离群点的检测精度,结合RoBERT与改进的LOF在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。  相似文献   

13.
王艳 《科学技术与工程》2011,11(19):4556-4558
偏最小二乘回归是通过一组自变量来预测一个或一组因变量的统计方法。但在很多情况下用于建模的样本点由于种种原因会出现一些异常情况,这些异常点和其他样本点之间都存在着很大的偏差。异常点的存在对所建立的模型和真实模型就有很大的偏差。基于这一问题本文通过构造统计量对所给的样本点进行选择,剔除对模型的构造有很大影响力的样本异常点,从而获得一个相对合理的样本空间。在相对合理的样本空间中采用偏最小二乘回归建立模型。运用MATLAB编程,通过一个实例说明在对于异常点剔除后的样本空间中建立模型的精确程度有了很大的提高。  相似文献   

14.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

15.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

16.
Outlier detection is a very important type of data mining,which is extensively used in application areas.The traditional cell-based outlier detection algorithm not only takes a large amount of time in processing massive data,but also uses lots of machine resources,which results in the imbalance of the machine load.This paper presents an algorithm of the MapReduce-based and cell-based outlier detection,combined with the single-layer perceptron,which achieves the parallelization of outlier detection.These experiments show that this improved algorithm is able to effectively improve the efficiency of the outlier detection as well as the accuracy.  相似文献   

17.
为解决现有局部线性嵌入算法不适合处理非均匀分布数据和未利用距离远点信息的问题,首先引入测地线距离,以便能利用远点信息;然后使用调和平均规范化构造调和平均测地线核矩阵,使算法能更好地处理分布不均匀数据并具有鲁棒性。在UCI数据集上的实验结果表明,改进后的算法能够取得比局部线性嵌入算法更好的降维效果。  相似文献   

18.
在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力.  相似文献   

19.
针对孤立点检测算法不能较好地模拟人工检测过程、未充分考虑待测数据周围样本分布的问题,提出了一种孤立点检测算法DD-SVDD.该算法综合考虑待测样本与目标样本之间的距离,以及待测样本所在区域样本的分布信息,结合距离和平均密度来确定高维特征空间中决策边界附近待测数据的类别.在训练阶段,考虑了决策边界附近目标训练样本的分布,...  相似文献   

20.
Outlier detection has very important applied value in data mining literature. Different outlier detection algorithms based on distinct theories have different definitions and mining processes. The three-dimensional space graph for constructing applied algorithms and an improved GridOf algorithm were proposed in terms of analyzing the existing outlier detection algorithms from criterion and theory.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号