首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
基于局部密度的差异来发现离群点的检测方法很难处理离群点聚集在一起的情况,提出一种基于密度的离群点检测方法,该方法先采用DBSCAN聚类算法检测出全局离群点,然后借鉴局部离群因子的评估策略来确定大类簇边界区域内的"错聚"样本点,进而从"错聚"样本点的邻居点中依据距离和局部密度识别出其他局部离群点。实验结果表明该方法具有一定的可行性和有效性。  相似文献   

2.
为了研究局部离群数据挖掘方法,将K均值聚类算法和基于影响空间的局部离群因子算法相结合,构造了一种基于K均值和影响空间的局部离群因子的方法.该方法首先通过聚类把靠近簇中心密集区域的正常数据剔除,然后再调用INFLOF算法对剩余数据进行挖掘,从而减少了中间结果的存储,大大减少了算法的运行时间.最后分别通过随机数据和实际数据实验,验证了KINFLOF算法在离群数据挖掘中的准确性和运行效率.  相似文献   

3.
如何提高大数据环境下推荐系统的推荐效率是一个值得关注的课题.本文提出了一种基于用户社交网络的最短距离聚类算法.该算法在推荐之前预先对用户进行聚类,降低邻域搜索空间,提高推荐效率.本聚类算法将用户分为分簇用户和离群簇用户两大类,推荐时以簇为单位输入.离群簇用户可实现对社交网络的简单扩展.最后通过对真实社交网络的模拟,证明了算法的可行性与有效性.  相似文献   

4.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

5.
基于大数据技术准确把握配电网负荷发展态势将为精细化规划提供依据,解决城区供电分区混乱问题.本研究提出城市负荷空间分布的聚类感知方法,首先开展用户信息收集筛选建立样本数据集,采用基于密度峰值的快速聚类算法,以各电力用户样本点的局部密度和样本间距为指标进行聚类,聚类所得群簇对应于一定容量变电站供电分区的负荷分布,以聚类群簇作为基本单元,分析群簇属性指标包括群簇簇头空间坐标、群簇负荷总量、群簇负荷密度、群簇用户总数、群簇最大半径、群簇平均半径等,建立以群簇属性为要素的城市电力负荷态势感知模型,在特定的时间和空间对城市电力负荷群簇进行分析以准确把握城市发展态势;最后以某城市供电网格为例,验证所提方法有效性.  相似文献   

6.
陈蓉  李艳萍 《科学技术与工程》2012,12(35):9725-9729
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。  相似文献   

7.
移动运营商为了拓展新业务,需要增强对用户资源的了解,因此通过大数据分析技术深入分析移动通信系统中的用户行为数据.基于移动通信网络中的用户通话记录提出了一种基于复杂网络聚类算法的用户社交群组构造算法.该算法通过分析用户的通话记录,建立用户间联系紧密度模型.基于局部扩张原理和派系过滤算法进行用户群组构造.鉴于移动通话系统的巨大数据量,采用基于MapReduce编程模型的并行化设计.分别在模拟数据集和中国移动真实数据集下对该算法进行了验证,实验结果表明,该方法具有较好的性能,是可行且有效的.  相似文献   

8.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

9.
针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系.提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则.运用传统的K-means算法、不同离群点监测阈值下的改进K-means算法进行...  相似文献   

10.
基于SNN相似性和密度的聚类算法是当前主要的无监督聚类方法之一,该类算法在发现不同大小形状簇的聚类过程中都取得了较好的结果。但是该类算法也存在局限性,如Jarvis-Pat-rick算法通过单连结的方式发现簇,可能分割真正的簇或者合并应该保持分离的簇,而SNN密度类算法的Eps,MinPts参数的确定对用户来说是比较困难的。针对该类问题,本文对聚类过程中的局部集聚特征进行了分析和定义,提出了利用数据的局部集聚特征来控制聚类过程的的聚类算法。通过验证,该算法对发现不同密度以及任意形状的数据集合的聚类分析问题是有效的,突出了数据分析的局部集聚特征,改进了数据聚类的质量。  相似文献   

11.
基于不确定数据的表示模型, 针对属性级不确定数据, 提出一种不确定数据生成算法AC UDGen(attribute level continuous uncertain data set generation algorithm). 该算法通过引入离群点检测 LOF(local outlier factor)算法, 用每个数据对象的离群因子作为参数来控制不确定数据对象的扰动范围, 可很好地满足原始数据的分布特征, 解决了目前工作中缺乏原始数据分布特征的问题. 实验结果表明, 该算法生成的不确定数据集具有更好的聚类效果, 并降低了离群点对聚类结果的影响, 使每个数据对象MBR(minimum bounding rectangle)的大小可根据自身的分布特征自适应地变化.  相似文献   

12.
基于知识发现中的局部异常因子思想, 提出一种基于局部密度比的模糊隶属度设置算法, 该算法根据样本的邻域密度比设置样本的隶属度, 并采用一种单参数选择策略. 数值实验表明, 所提出的算法在带噪声的非线性函数估计方面具有很好的鲁棒性, 有效地解决了模糊支持向量机中的模糊隶属度设置问题, 对处理带噪声的分类和非线性函数估计问题具有重要的意义.  相似文献   

13.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

14.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

15.
A novel approach for outlier detection with iterative clustering( ICOD) in diverse subspaces is proposed. The proposed methodology comprises two phases,iterative clustering and outlier factor computation. During the clustering phase, multiple clusterings are detected alternatively based on an optimization procedure that incorporates terms for cluster quality and novelty relative to existing solution. Once new clusters are detected,outlier factors can be estimated from a new definition for outliers( cluster based outlier), which provides importance to the local data behavior. Experiment shows that the proposed algorithm can detect outliers which exist in different clusterings effectively even in high dimensional data sets.  相似文献   

16.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

17.
廖列法  姚秀  李奎 《科学技术与工程》2023,23(17):7420-7427
现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用RoBERTa表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题,其次利用数据点的密度分布并结合信息熵改进局部离群因子算法(LOF)来确定离群点个数及数据点集,提高离群点的检测精度,结合RoBERT与改进的LOF在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。  相似文献   

18.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

19.
为揭示交通流的内在动态特性,利用分析法对交通流分形特性进行研究,表明该城市交通流序列具有长程相关性;为达到更精准的短期交通预测效果,同时提出一种基于思维进化算法(MEC)对神经网络最优初始参数的定向搜索,解决神经网络易陷入局部最优的问题;并用自适应增强算法(adaptive enhancement algorithm,Adaboost)对优化过的神经网络集成,弥补神经网络对新样本集的泛化性能差缺陷,在此基础上通过预测误差平方和倒数准则重新调整Adaboost算法对弱预测器权值分布,使每个预测器最大程度提高网络预测精度.验证结果表明,改进MEC-BP_Adaboost模型与BP模型相比,均方误差和平均绝对误差分别下降78.2%和46.4%,证明本文改进方法对交通流预测具有合理性,对不同的交通流状态具有较好的适应性.  相似文献   

20.
为了改善图像表情和图像序列表情识别效果,针对传统表情识别特征提取复杂和效果不理想问题,提出了一种深度残差网络和局部二值模式(local binary patterns,LBP)相结合的特征提取方法,利用深度残差网络提取数据集的空域特征,长短期记忆网络(long short-term memory,LSTM)处理时域特征,实现空域与时域特征的结合。研究了不同层数的残差网络、不同形式的LBP算子以及其他网络结构对人脸表情识别的影响,对比了支持向量机和随机森林实现的序列表情识别算法。在Cohn-Kanade数据集和AFEW6.0数据集上进行了验证,实验结果表明,算法在验证集上的准确率分别为73.1%和58.4%,相比其他算法有一定程度的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号