首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

2.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

3.
针对现有的无监督异常检测技术的不足之处,提出了一种基于样本分布异常数据实例度量方法;将主成分分析方法应用到异常检测中解决数据集高维数据的降维问题.提出一种新的无监督异常检测算法μ-UAD,并对该算法进了性能评估.实验表明,该算法具有较好的检测性能.  相似文献   

4.
为提升异常检测算法在处理局部异常、异常簇和复杂分布数据集时的检测精度,降低对数据先验信息的依赖性,提出一种基于逆K最近邻的密度峰值异常检测方法(Rknn-DP).首先结合逆K最近邻(Rknn)改进密度峰值算法中局部密度和相对距离的计算方式,通过引入邻域信息更准确地刻画异常点的特征,然后根据特征分布选取局部密度低、相对距离高的点作为粗选异常点集合,最后通过逆K最近邻计算粗选集合的异常因子,根据异常程度进行剪枝,排除噪声点、降低连带错误效应,自适应得到最终的异常点集.通过与ABOD、LSCP、HBOS、IForest等算法在真实数据集与人工数据集上的对比实验,证明了Rknn-DP算法的自适应性和有效性.  相似文献   

5.
基于数据流挖掘技术的入侵检测模型与算法   总被引:1,自引:0,他引:1  
针对目前基于数据流关联规则挖掘技术的入侵检测系统响应速度不够快和检测精度不够高的问题,提出一个基于数据流最大频繁模式的入侵检测系统模型MMFIID-DS;设计各种剪枝策略,挖掘经过训练学习后的正常数据集、异常数据集和当前检测数据流的最大频繁项集,建立系统的正常行为模式、异常行为模式和用户行为模式,达到极大缩小搜索空间的目的,提高系统的响应速度;结合误用检测和异常检测2种入侵检测方法进行实时在线检测入侵,提高系统的检测精度。理论与实验结果表明:MMFIID-DS入侵检测系统具有较好的性能。  相似文献   

6.
流形学习可以用于发现大型高维数据集的内在结构,并给出理解该数据集的潜在方式,已被视为一种有效的非线性降维方法 .近年来,新数据点不断地从数据流中产生,将改变已有数据点及其邻域点的坐标,传统流形学习算法不能有效地用于寻找高维数据流的内在信息.为了解决该问题,本文提出了一种基于迭代分解的增量流形学习算法IMLID(Incremental Manifold Learning Algorithm Based on Iterative Decomposition),可以检测到数据流形中的逐步变化,校准逐渐变化中的流形,可提高在取样于真实世界的特征集上分类效果的精确率,利用真实数据集进行实验验证,结果表明本文提出的算法是有效的,与其他相关算法相比,其性能具有优势,在模式识别、生物信息等领域具有应用价值.  相似文献   

7.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

8.
为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维.  相似文献   

9.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

10.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

11.
针对发动机状态在线预测中样本累积、预测模型膨胀和在线更新速度慢等问题,提出了基于增量稀疏核极限学习机的在线预测方法.该方法定义了KELM核函数矩阵的稀疏测量矩阵,并根据矩阵原子相干最小化和自信息量最大化的样本信息度量准则实现在线样本前向稀疏与后向删减,提高了样本稀疏化效率.利用有效样本对测量矩阵在最佳阶数内进行在线扩充与修剪,限制了预测模型膨胀.利用改进的增量建模方法对模型的核权重矩阵进行递推更新,从而建立规模有限且结构稀疏的在线预测模型,提高了在线建模速度.仿真数据和发动机状态参数在线预测实验结果表明,与现有在线预测方法相比,ISKELM具有更高的样本稀疏化和在线建模效率.对发动机排气温度进行120步预测时,预测速度分别提高了80.50%和31.72%,预测精度分别提高了48.56%和15.81%.   相似文献   

12.
针对神经网络无线定位方法,存在训练耗时长,定位结果易受噪声干扰的问题,提出了一种改进的核极限学习机无线定位算法。采取在同一位置进行多次测量的方法得到训练数据;把同一位置测得的数据划分为一个样本子空间并提取样本子空间的特征,以样本子空间的特征代替原来的训练数据;利用矩阵近似及矩阵扩展的相关理论改进核极限学习机算法;将处理过的训练数据利用改进的核极限学习机进行训练,得到定位预测模型。仿真结果表明,在相同数据集下,改进的核极限学习机训练用时短、定位速度快;在相同噪声干扰情况下,此算法定位预测误差小。经验证,该算法不但能提高网络的训练速度、定位速度,还能有效地降低噪声的干扰,提高定位精度。  相似文献   

13.
为了提高细颗粒物PM2.5浓度预测精度,提出一种主元成分分析与在线序列极限学习机相结合(PCA-OS-ELM)的PM2.5浓度预测方法. 首先,通过主成分分析方法(PCA)提取高维大气数据中影响空气质量的关键变量,并去除不必要的冗余变量;其次,利用提取的关键变量建立在线序列极限学习机(OS-ELM)网络预测模型,将批处理和逐次迭代相结合,不断更新训练数据和网络参数实现大气PM2.5浓度快速预测.研究结果表明,PCA-OS-ELM预测方法采用不同批次训练数据更新模型的方式,能够快速实现大气PM2.5浓度预测,证明了该方法的有效性.与其他方法相比,该方法预测误差小,预测精度高,具有更好的实用价值.   相似文献   

14.
针对煮糖结晶过程难以进行自动控制的问题,提出一种基于预测模型的自适应控制方法。以逐步浓缩上升煮糖工艺为基础,基于核极限学习机构建糖膏液位和糖膏锤度的预测模型;以预测工艺偏差作为适应度函数,利用粒子群算法在线优化蒸汽阀和入料阀开度,并自动调节阀门用于跟踪理想工艺曲线。结果表明:与人工煮糖相比,自适应控制的煮糖过程更稳定且更接近理想工艺曲线,达到卸糖液位和锤度所需的时间相对减少7.06%。基于核极限学习机的煮糖结晶自适应控制方法具有可行性,可为进一步实现工业煮糖自动控制提供理论参考。  相似文献   

15.
山区环境中泥石流的孕育受多种因素的影响,为提高泥石流危险性的预测精度,提出一种萤火虫算法(firefly algorithm, FA)优化核极限学习机(kernel based extreme learning machine, KELM)的预测模型。首先,针对数据维度爆炸的问题,通过主成分分析(principal component analysis, PCA)数据降维,使得留有大部分致灾特征信息的因子输入训练模型;然后,使用萤火虫优化算法更新核极限学习机的参数,将四川省北川县监测数据输入优化后的预测模型,并与其他传统机器学习算法进行对比分析,验证该算法的优越性;最后,使用多种指标综合评估模型的预测效果。结果表明,FA-KELM模型能够有效地简化数据结构,提高泥石流危险性预测的准确性,为泥石流灾害预测方面的研究提供参考和借鉴。  相似文献   

16.
基于流形正则化的在线半监督极限学习机   总被引:1,自引:0,他引:1  
在基于流形正则化的半监督极限学习机(SS-ELM)的基础上,利用分块矩阵的运算法则,提出了在线半监督极限学习机(OSS-ELM)方法.为避免在实时学习的过程中由于数据累积引起的内存不足,通过对SS-ELM的目标函数的流形正则项的近似,给出了OSS-ELM的近似算法OSSELM(buffer).在Abalone数据集上的实验显示,OSS-ELM(buffer)在线学习的累计时间与所处理的样本个数呈线性关系,同时,9个公共数据集上的实验表明,OSS-ELM(buffer)的泛化能力与SS-ELM的泛化能力的相对偏差在1%以下.这些实验结果说明,OSS-ELM(buffer)不仅解决了内存问题,还在基本保持SS-ELM泛化能力的基础上大幅度提高了在线学习速度,可以有效应用于在线半监督学习当中.  相似文献   

17.
台区负荷数据不仅作为时序数据呈现自相关性,还易受台区环境因素影响呈现非平稳性,因此预测精度不仅与预测模型结构有关,还与输入数据的时序特征有关。为了提高台区负荷的预测精度,提出一种基于混沌时序分析与核极限学习机的短期负荷多粒度预测模型。针对负荷数据的非平稳特征,通过变分模态分解算法将非平稳的原始信号转换成一系列相对平稳的子信号;针对负荷数据中的自相关特征,通过混沌时序分析方法,求解各个模态输入预测模型时的时间窗大小;构建多粒度核极限学习机预测模型,解决负荷数据中非平稳、自相关性对负荷预测的不利影响,提高模型的预测精度。结果表明,负荷的预测精度受输入数据时间窗大小的影响,不同模态分量的最佳时间窗的大小不同。采用混沌相时序分析的方法评估各个模态分量的最佳时间窗大小,可以有效提升核极限学习机的预测精度。  相似文献   

18.
提出一种基于样本分布的极限学习机预测模型WELMSD.该模型先用kN近邻密度估计方法估计出样本的密度值,再用估计出的密度值给传统ELM的经验风险项加权,克服传统ELM在对时间序列进行预测时忽略样本分布的缺点.基于Rossler混沌时间序列和上证、深证股票数据的实验仿真结果证明了所提算法的有效性,且当近邻参数k_N取值较小时,所提模型对参数不敏感,是一种更优的多变量时间序列预测模型.  相似文献   

19.
Support vector machine(SVM) is an important classification tool in the pattern recognition and machine learning community,but its training is a time-consuming process.To deal with this problem,we propose a novel method to mine the useful information about classification hidden in the training sample for improving the training algorithm,and every training point is assigned to a value that represents the classification information,respectively,where training points with the higher values are chosen as candidate support vectors for SVM training.The classification information value for a training point is computed based on the classification accuracy of an appropriate hyperplane for the training sample,where the hyperplane goes through the mapped target of the training point in feature space defined by a kernel function.Experimental results on various benchmark datasets show the effectiveness of our algorithm.  相似文献   

20.
针对单核极限学习机在泛化性能上存在一定局限性的问题, 提出将再生核函数与多项式核函数相结合, 建立一种新的组合核极限学习机模型, 使其具有全局核与局部核的优点, 并选择布谷鸟搜索算法对其参数进行优化选择. 仿真实验结果表明, 采用基于再生核的组合核函数作为极限学习机的核函数可行, 在实验数据集的多值分类和回归问题上, 与传统支持向量机及单核极限学习机相比, 该模型具有更好的泛化性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号