期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张春生李艳王海珍张世铮《内蒙古民族大学学报(自然科学版)》2009,24(4):371-373

首先讨论了异常点挖掘在数据挖掘过程中的重要性,产生异常点的原因,以及目前用于检测异常点的常用算法,指出了单纯应用距离法的局限性,提出了基于纵横距离的异常点检测算法,并给出了基于学生成绩检测的应用实例,该方法不需要进行大量的样本训练,在异常点检测方面有较好的效果. 相似文献

2.

基于距离的异常成绩检测方法

李萌阳小华《南华大学学报(自然科学版)》2009,23(4):70-73

数据质量对于学生成绩具有十分重要的意义.本文将教育学原理与数据清洗技术相结合,提出了基于距离的异常成绩检测方法.在理论上论证了方法的合理性,并通过实验验证了方法的有效性.本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究应用于教育信息化领域提供了很好的开端. 相似文献

3.

粗糙集理论中基于距离的异常检测

王程华江峰《烟台大学学报(自然科学与工程版)》2010,23(1):54-58

针对现实世界中的不确定与不完整数据,根据粗糙集理论的框架提出了一种基于距离的异常检测方法.由于粗糙集理论是处理不确定性与不完整性的一种有效工具,因此该方法可以从不确定与不完整的数据中高效地检测出异常.另外,定义了2种特定的距离度量,用来计算2个对象之间的距离.最后,对粗糙集理论中基于距离的异常检测算法也进行了讨论. 相似文献

4.

基于孤立森林算法的电能量异常数据检测

黄福兴周广山丁宏张罗平钱淑韵袁培森《华东师范大学学报(自然科学版)》2019,(5)

随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率. 相似文献

5.

基于密度的异常检测算法在入侵检测系统中的应用 总被引：2，自引：0，他引：2

李循律何钦铭《江南大学学报(自然科学版)》2006,5(5):543-546

给出了异常的定义,介绍了几种典型的异常检测算法并比较它们的优缺点,发现基于密度的异常检测算法的局部异常观点较符合现实生活中的应用.阐述了基于密度的异常检测算法的定义及其在入侵检测系统中的具体应用. 相似文献

6.

基于邻域和密度的异常点检测算法

陶运信皮德常《吉林大学学报(信息科学版)》2008,26(4)

为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。相似文献

7.

基于K—L距离和信息距离的局部影响分析

胡跃清《东南大学学报(自然科学版)》1995,25(1):76-81

本文给出了Ｋ－Ｌ距离和信息距离对某类参数变换的不变性；证明了在线性模型中，从Ｋ－Ｌ距离、信息距离以及似燃距离出发得到的局部影响矩阵是一致的；利用局部影响分析思想来检测各种扰动方式的敏感点，提出一种新的自变量扰动方式，在实例分析中得到了满意的结果。相似文献

8.

基于距离浓度的K-均值聚类算法

刘韬蔡淑琴曹丰文崔志磊《华中科技大学学报(自然科学版)》2007,35(10):50-52

提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度. 相似文献

9.

基于局部最大距离的孤立点检测算法的研究

邱保志尚俊平贾晨科《河南教育学院学报(自然科学版)》2005,14(1):55-58

孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象．本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离．实验结果表明,该算法发现局部孤立点是高效的。相似文献

10.

基于加权距离的局部离群点检测算法 总被引：1，自引：1，他引：0

尹成祥张宏军张睿綦秀利王彬《科学技术与工程》2014,14(15):85-88,92

针对不同属性对数据点之间距离贡献的不同,提出了一种用于距离度量的属性加权策略。标称属性通过属性取值的信息熵进行加权,数值属性通过属性取值的标准差进行加权,混合属性根据标称属性和数值属性综合加权,加权策略可以放大离群点与正常数据之间的差别。仿真实验区分不同的属性类型对所提加权策略进行了验证,实验结果证明了策略的有效性。相似文献

11.

一种基于多属性的空间例外挖掘改进算法

马泽波王丽珍《云南大学学报(自然科学版)》2007,(Z2)

空间例外是指与其邻域内其它数据表现不一致或者是偏离观测值以至使人们认为是由不同体制产生的观测点.传统的例外挖掘是根据一个非空间属性值进行例外判断,这种方法容易引起判断失误.在对多个属性进行考虑的基础上,提出了一种基于多属性的空间例外挖掘算法,并与属性加权算法在正确性和有效性方面进行了比较分析.实验证明算法可以有效地发现例外数据. 相似文献

12.

基于RoBERTa与改进局部离群因子算法的专利新颖性测量

廖列法姚秀李奎《科学技术与工程》2023,23(17):7420-7427

现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用RoBERTa表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题,其次利用数据点的密度分布并结合信息熵改进局部离群因子算法（LOF）来确定离群点个数及数据点集,提高离群点的检测精度,结合RoBERT与改进的LOF在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。相似文献

13.

异常点检测后的偏最小二乘回归模型

王艳《科学技术与工程》2011,11(19):4556-4558

偏最小二乘回归是通过一组自变量来预测一个或一组因变量的统计方法。但在很多情况下用于建模的样本点由于种种原因会出现一些异常情况,这些异常点和其他样本点之间都存在着很大的偏差。异常点的存在对所建立的模型和真实模型就有很大的偏差。基于这一问题本文通过构造统计量对所给的样本点进行选择,剔除对模型的构造有很大影响力的样本异常点,从而获得一个相对合理的样本空间。在相对合理的样本空间中采用偏最小二乘回归建立模型。运用MATLAB编程,通过一个实例说明在对于异常点剔除后的样本空间中建立模型的精确程度有了很大的提高。相似文献

14.

GDLOF:基于网格和稠密单元的快速局部离群点探测算法 总被引：1，自引：0，他引：1

张净孙志挥《东南大学学报(自然科学版)》2005,35(6):863-866

为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性. 相似文献

15.

基于nested-loop的大数据集快速离群点检测算法 总被引：1，自引：0，他引：1

倪巍伟陈耿陆介平孙志挥《东南大学学报(自然科学版)》2006,36(3):463-466

针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 相似文献

16.

A mapreduced-based and cell-based outlier detection algorithm

Sunjing Zhu Jing Li Jilin Huang Simin Luo Weiping Peng 《武汉大学学报:自然科学英文版》2014,19(3):199-205

Outlier detection is a very important type of data mining,which is extensively used in application areas.The traditional cell-based outlier detection algorithm not only takes a large amount of time in processing massive data,but also uses lots of machine resources,which results in the imbalance of the machine load.This paper presents an algorithm of the MapReduce-based and cell-based outlier detection,combined with the single-layer perceptron,which achieves the parallelization of outlier detection.These experiments show that this improved algorithm is able to effectively improve the efficiency of the outlier detection as well as the accuracy. 相似文献

17.

基于调和平均测地线核的局部线性嵌入算法

曾文赋黄添强李凯余养强郭躬德《山东大学学报(理学版)》2010,45(7):55-59

为解决现有局部线性嵌入算法不适合处理非均匀分布数据和未利用距离远点信息的问题,首先引入测地线距离,以便能利用远点信息;然后使用调和平均规范化构造调和平均测地线核矩阵,使算法能更好地处理分布不均匀数据并具有鲁棒性。在UCI数据集上的实验结果表明,改进后的算法能够取得比局部线性嵌入算法更好的降维效果。相似文献

18.

基于软超球体的高维非线性数据异常点识别算法

徐钢张晓彤黎敏徐金梧《北京科技大学学报》2017,39(10)

在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力. 相似文献

19.

基于高维几何特征的孤立点检测算法

朱玉全刘晟孙金津《江苏大学学报(自然科学版)》2011,32(1):84-88

针对孤立点检测算法不能较好地模拟人工检测过程、未充分考虑待测数据周围样本分布的问题,提出了一种孤立点检测算法DD-SVDD.该算法综合考虑待测样本与目标样本之间的距离,以及待测样本所在区域样本的分布信息,结合距离和平均密度来确定高维特征空间中决策边界附近待测数据的类别.在训练阶段,考虑了决策边界附近目标训练样本的分布,... 相似文献

20.

Constructing three-dimension space graph for outlier detection algorithms in data mining 总被引：1，自引：0，他引：1

ZHANGJing SUNZhi-hui 《武汉大学学报:自然科学英文版》2004,9(5):585-589

Outlier detection has very important applied value in data mining literature. Different outlier detection algorithms based on distinct theories have different definitions and mining processes. The three-dimensional space graph for constructing applied algorithms and an improved GridOf algorithm were proposed in terms of analyzing the existing outlier detection algorithms from criterion and theory. 相似文献