首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 796 毫秒
1.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

2.
针对分布稀疏、特征不明显的小样本数据回归中的属性冗余问题,基于统一切比雪夫多项式,提出了一种向量形式输入的可变正交多项式核函数——泛化的统一切比雪夫多项式核函数.新的核函数通过利用统一切比雪夫多项式的正交性和可变性扩大了函数的搜索空间,通过调整多项式阶数有效地控制了特征空间维数,从而解决了稀疏数据回归中的属性冗余问题.另外,利用Mercer定理证明了该核函数的有效性.在多组标准数据集和实际工程数据集上对核函数的性能进行了实验对比,结果证明新的核函数预测精度较高,泛化能力较好,在大多数标准数据集上的性能优于其他切比雪夫多项式核函数.  相似文献   

3.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

4.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

5.
针对点匹配问题,在已知两个点集对应关系的情况下,通过高斯过程回归计算两个点集的空间几何变换模型.首先,给定高斯过程的协方差函数,通过对训练样本的学习计算协方差函数中的未知参数,得到后验的高斯过程.然后,根据后验的高斯过程预测测试样本的目标值,完成函数映射.该方法在空间几何变换模型的非线性映射能力与问题求解复杂度之间折衷,是一个基于训练样本的自动学习过程.仿真结果表明:该方法具有较好的非线性映射能力,并且只需较少的运算时间.  相似文献   

6.
针对传统支持向量机对噪声敏感的问题,给出一种基于不对称形式的二次不敏感控制型ramp损失函数的支持向量回归机,采用凹凸过程优化和光滑技术算法,将非凸优化问题转化为连续且二次可微的凸优化问题,利用有限步终止的Amijo-Newton优化算法,求解所建立的优化模型,并分析了算法的收敛性.该算法不仅可以保持支持向量的稀疏性,而且还可以控制训练样本中的异常值.实验结果表明,该模型保持了很好的泛化能力,无论对模拟数据还是标准数据都具有一定的拟合精度,与标准支持向量机模型相比,不仅能够降低噪声和孤立点的影响,而且也具有较强的鲁棒性.  相似文献   

7.
基于高速公路交通量短时变化的非线性、不确定性和复杂性,利用支持向量回归模型,提出一种核函数切换的预测方法.首先,通过历史数据构建不同核函数的支持向量回归模型并对历史数据进行拟合,根据拟合的误差确定不同时刻对应的最优核函数类别;然后根据历史数据及确定的不同时刻的核函数类别训练支持向量分类机;最后利用支持向量分类机确定预测时刻最优的核函数类别,选取相应的支持向量回归模型进行预测.实例分析表明,与传统的支持向量回归模型相比,含核函数切换的预测方法预测精度较高,且具有较好的鲁棒性.  相似文献   

8.
从最小二乘支持向量机的稀疏表达出发,构建高效的基于稀疏最小二乘支持向量机的网络入侵检测模型,提出了一种通过基于核空间近似策略的有效低秩逼近来有效减小原始训练样本集中的支持向量数来实现最终模型的稀疏表达.以MIT KDD99数据集为基础,对所提出方法进行有效性验证,并与利用剪枝策略通过递归过程中不断减少模型中支持向量个数的稀疏化方法、基本最小二乘支持向量机以及标准支持向量机方法的性能进行对比.结果表明:基于核空间近似的最小二乘支持向量机稀疏化与标准最小二乘支持向量机相当;此外稀疏最小二乘支持向量机能够提高入侵检测响应速度.  相似文献   

9.
提出基于稀疏表示和最小二乘回归的分类方法:用训练样本重构测试样本,先利用稀疏表示剔除噪声样本,接着用最小二乘回归和最近邻子空间准则对样本分类,可以克服传统分类方法存在的过拟合问题.在6个基因表达数据上的实验结果表明,该方法可以提高分类准确率.  相似文献   

10.
跨海大桥处于海洋复杂运动环境中,受到海浪、飓风等因素的扰动,常规桥梁变形时间序列模型不能全面反映其变形的内在驱动性.选取了高斯过程回归模型,根据青岛胶州湾跨海大桥某处桥墩30期挠曲变形实测数据,构建训练样本,通过训练样本获得跨海大桥变形的先验参数,对测试样本进行预测.为了避开跨海大桥变形模型非线性映射函数形式表达式及"高维数"等技术难题,引入了SE、NN、RQ三种单一核函数及SE、RQ形成的组合核函数,对这四种核函数分别进行变形值的高斯过程回归,并计算各种核函数模型的预测值相对误差,获得了跨海大桥变形值最优核函数预测值.同时,基于核函数高斯过程回归,实现了变形值间的非线性映射,解决了复杂模式预测问题.  相似文献   

11.
针对变速箱故障机理复杂、信号分析较难获取充足异常样本标签的问题,提出一种基于集体离群点检测故障的方法。首先以多元高斯混合函数拟合正常样本数据集和测试数据集分布,其次采用不动点迭代算法求解似然估计函数,搜索出数据分布函数的最优参数,最后通过数据分布趋势对比挖掘测试数据集中的集体离群点。实验环节对包含8种故障类型的变速箱工作数据集进行测试,故障识别率均在90%以上。结果表明,该诊断方法可以在事先不了解故障机理的情况下,挖掘出数据集中表征变速箱故障的异常数据序列。  相似文献   

12.
针对一组有限测量数据的非线性动态系统建模方法存在模型结构复杂且易出现过拟合等问题,从建模精度及模型稀疏特性出发,提出了保精度-稀疏特性的核回归模型用于辨识非线性动态系统。该方法将逼近误差的L_∞范数思想与结构风险最小化理论相结合,建立求解非线性动态系统所对应的核回归模型优化问题,再应用较简单的线性规划对其求解。提出的方法具有如下三个显著特性:①应用逼近误差的L_∞范数最小化可保证非线性动态系统的辨识精度;②引入支持向量回归架构下的结构风险L_1范数对模型结构复杂性进行有效控制可保证模型稀疏特性;③模型的泛化性能可通过提出的方法从建模精度与模型稀疏特性之间取其平衡。最后,通过实验分析论证了提出方法在辨识非线性动态系统上的保精度-稀疏特性的合理性与优越性。  相似文献   

13.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

14.
针对凸壳体特征的三维散乱点集数据,在空间划分结构的基础上进行K近邻搜索并估算点的法向量.引入点邻域的离差计算来代替曲率计算,提取边界区域特征点集,并比较分析了两种方法的效果.最后对提取后的剩余点集进行基于法向量的分块及拟合,并在可视化工具箱(VTK)中进行布尔运算,实现凸壳体模型的生成及可视化.该方法在双底双壳船舶液舱点集数据中进行了验证.  相似文献   

15.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

16.
针对基于小样本集人脸图像的识别能力低,计算复杂度高的问题,提出了一种基于样本融合的核稀疏表示方法(KSRMSF).该方法首先通过在原始样本集中添加镜像训练样本和对称训练样本,扩大了原始样本集的规模,接着使用基于高斯核函数的算法从扩充后的训练样本集中挑选若干个最近邻训练样本,利用这组最近邻样本的线性组合表示待识别的测试样本,根据L2范式的结果对测试样本进行分类,通过修改最近邻样本数获得更高的分类精度.实验结果表明该方法比同类识别算法有更好的识别效果.  相似文献   

17.
基于带平滑削边绝对偏离(Smoothly Clipped Absolute Deviation, SCAD)函数和弹性网络(Elastic Net)函数,提出了一个零模非凸代理函数(EN-SCAD函数),该代理函数是弹性网络函数与一个连续可微凸函数的差,因此是一个凸差(Difference of Convex, DC)函数;然后,将EN-SCAD函数应用于稀疏线性回归问题,建立了EN-SCAD非凸代理模型,在适当的限制强凸条件下得到该模型的稳定点与真实稀疏向量之间的统计误差界;其次,根据EN-SCAD非凸代理模型设计了一个多阶段凸松弛算法,并得到了该算法产生的迭代点列与真实稀疏向量之间的统计误差界;最后,将基于EN-SCAD非凸代理模型设计的算法与自适应弹性网络凸松弛方法的数值效果进行比较,数值实验结果表明:当采样矩阵的列向量具有强相关性时,基于EN-SCAD非凸代理模型的算法产生的估计误差小于自适应弹性网络凸松弛方法产生的估计误差。  相似文献   

18.
随着大数据时代的到来,本体模型所要处理的数据量越来越庞大.在这一背景下,本体稀疏学习算法越来越受到重视.文中利用稀疏向量学习得到本体函数,用凸优化模型得到本体稀疏向量.使用平衡函数构建平衡项,给出凸集的选取方法,并通过迭代策略得到平衡函数的表达式.最后,两个仿真验证实验表明算法是有效的.  相似文献   

19.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.  相似文献   

20.
基于RBF核的LS-SVR模型,采用实验变差函数计算插值算法权值,对权系数与各训练样本内积值相乘所反映样本空间结构和相互间关联度的插值核函数进行构造,提出了一种通过Kriging空间散乱插值方法利用样本数据构造出的插值核函数与RBF核函数进行组合而成的核方法。结果表明,该方法使LS-SVR板形预测有更好的性能,在提升预测算法泛化能力的同时,实现了对板形的精准回归预测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号