首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
k局部凸包分类方法通过改进k近邻算法在处理小样本问题时的决策边界而显著提高分类性能,k子凸包分类方法通过克服k凸包分类对类数和样本环状分布的敏感性而改善了分类性能。但是,该方法仍然对样本距离度量方法敏感,并且在k邻域内不同类的样本数经常严重失衡,导致分类性能下降。针对上述问题,文章提出了一种邻域k凸包分类方法,并通过引入距离度量学习和集成学习技术来提高算法对样本空间度量的鲁棒性。大量实验表明,文中提出的基于度量学习的邻域k凸包集成方法具有显著的分类性能优势。  相似文献   

2.
针对动态选择集成算法存在当局部分类器无法对待测样本正确分类时避免错分的问题,提出基于差异聚类的动态SVM选择集成算法。算法首先对训练样本实施聚类,对于每个聚类,算法根据精度及差异度选择合适的分类器进行集成,并根据这些分类器集成结果为每个聚类标定错分样本区,同时额外为之设计一组分类器集合。在测试过程中,根据待测样本所属子聚类及在子聚类中离错分样本区的远近,选择合适的分类器集合为之分类,尽最大可能的减少由上一问题所带来的盲区。在UCI数据集上与Bagging-SVM算法及文献[10]所提算法比较,使用该算法在保证测试速度的同时,能有效提高分类精度。  相似文献   

3.
【目的】由于AdaBoost算法弱分类器对各待测样本其投票权重是固定不变的,这会导致使用该算法进行分类时准确性不高,于是针对该问题提出了一种结合静态权重与动态权重的学习算法AdaBoost_DW。【方法】该算法保留了AdaBoost算法训练阶段产生的全部弱分类器,在预测阶段加入了能度量待测样本与各个弱分类器适应性的动态权重,通过双权重共同决定该弱分类器的投票权重。【结果】实验结果表明,AdaBoost_DW算法的分类精度绝大多数情况下高于原AdaBoost算法。【结论】证明了动态权重的加入能够提高原AdaBoost算法在各数据集上的分类准确率。  相似文献   

4.
针对传统局部线性嵌入算法在挖掘局部流形结构时未充分考虑样本邻居分布信息,且在降维过程中默认样本具有相同的重要性导致提取鉴别特征不明显的问题,提出基于共享近邻的加权局部线性嵌入(weighted local linear embedding based on shared neighbors, SN-WLLE)算法,并用于滚动轴承故障诊断.该算法首先使用余弦距离划分样本邻域;其次计算样本邻域对相似度用以评估样本共享近邻信息,并结合样本的6种邻居分布修正局部结构挖掘,提高多共享近邻的k近邻重构准确性;接着从多流形的角度评估样本点与近邻点间的稀疏分布一致性,以获得样本的重要性指标,并在低维空间保持该信息,进而提取准确的鉴别特征;最后结合KNN分类器构建出完备的轴承故障诊断模型.采用凯斯西储大学轴承数据集和实验室测试平台轴承数据集,从可视化评估、定量聚类评估、故障识别精度评估及鲁棒性评估等方面进行分析.结果表明:SN-WLLE算法的F值保持在108以上水准,平均故障识别精度最低可达0.973 4,不仅具有较好的类内紧致性与类间可分性,还对近邻参数k具有低敏感性.  相似文献   

5.
针对传统自适应增强学习算法训练过程中只关注预测误差率最小的缺陷,本文提出了一种基于代价敏感系数的改进自适应增强学习算法并应用于混凝土抗压强度预测。首先考虑影响混凝土强度的8种参数作为特征变量,通过自适应增强学习算法集成回归树,依据样本权值抽样建立多个弱回归学习器。同时引入线性敏感系数与指数敏感系数来优化增强学习过程中样本权值的更新问题,采用引力搜索算法对代价敏感系数的基数进行最优选取。最后,根据权重比集成弱学习器得到最终预测模型。通过对所提出的两组不同代价敏感系数组合策略下的预测模型与随机森林、BP神经网络算法等模型的预测结果进行对比分析,验证了所提预测模型具有更好的预测性能。  相似文献   

6.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

7.
K-近邻算法(K-nearest neighbor,KNN)是一种思路简单、易于掌握、分类效果显著的算法。决定K-近邻算法分类效果关键因素之一就是距离的度量,欧氏距离经常作为K-近邻算法中度量函数,欧式距离将样本的不同特征量赋予相同的权重,但是不同特征量对分类结果准确性影响是不同的。采用更能体现特征量之间相对关系的卡方距离度量作为KNN算法的度量函数,并且采用灵敏度法进行特征权重计算,克服欧氏距离的不足。分类实验结果显示,基于卡方距离的改进算法的各项评价指标优于传统的KNN算法。  相似文献   

8.
柳炳祥 《科学技术与工程》2013,13(19):5536-5542
提出了一种新的基于双重采样的选择性集成学习算法。针对集成学习要求学习器个体的差异性分布在样本空间的不同部分,对得到的聚类个体学习器输出进行重采样,以此来计算聚类个体的差异性。针对集成学习要求得到的个体学习器具有一定的精确性,对所有得到的学习器个体集合进行重采样来评估聚类个体精确性。在此基础上选择出集成学习所需的个体集合。以谱聚类算法作为基学习器,用聚类集成策略部分解决了谱聚类算法存在的尺度参数敏感问题,在UCI数据集上的仿真实验验证了算法的有效性。  相似文献   

9.
短期光伏功率预测对于电网稳定运行具有重要意义。为了解决单一模型预测精度不佳的情况,提出了一种在Stacking集成学习框架下融合Bagging和Boosting算法的短期光伏功率预测模型。首先,引入Copula函数的相关性分析和轻量级梯度提升机的特征贡献度计算来进行特征筛选;然后,选取泛化性能较优的模型作为基学习器,并采用贝叶斯优化算法来对基学习器模型参数进行优化,最后,定义一个超级学习器,采用5折交叉验证,将基学习器与元学习器封装到超级学习器中训练。算例结果表明,在不同季节和不同天气条件下,Stacking模型相较于单一模型有着更高的预测精度。  相似文献   

10.
为提高风险预测系统的易用性和可解释性,提出基于自组织映射网络(SOM)改进的即时学习(JITL)风险预测框架。首先,应用SOM对数据样本进行聚类,并对聚类特征进行解释。进而,通过基于聚类结果的样本选择算法构建待测数据的相似样本集,在线上调用作为基学习器的支持向量机(SVM)进行建模并输出风险预测结果。最后,采用一个交通事故数据集对风险模型的性能进行测试,检验其精度、易用性和可解释性。结果表明:采用SOM-JITL策略的SVM模型,受试者工作状况曲线面积指标达到0.720,相比不使用该策略的传统SVM模型提高17.5%,精度较高;SOM-JITL模型构建所需参数调节工作少,具有较好的易用性;此外,SOM聚类结果准确识别出处于交通拥堵等高风险场景,与现实场景一致,具有可解释性。综上,SOM-JITL策略能有效提高基学习器的性能,达到精度、可解释性和易用性的平衡,有助于以低成本大规模推广风险预测系统。  相似文献   

11.
为了提高微博用户转发行为预测的精度,提出一种有效的基于集成学习的微博用户转发行为预测算法.首先,对影响用户转发的各种特征进行综合分析,提取出用户属性、社交关系、微博内容等影响用户转发行为的特征;然后,采用Logistic回归、支持向量机与BP(BackPropagation)神经网络等机器学习算法对用户转发行为进行预测;最后,利用"加权投票法"的集成学习方法对多个预测结果进行融合.实验结果表明,相对于BP神经网络算法,在综合评价性能的F1度量值上,集成学习算法有1.5%的性能提升.  相似文献   

12.
抗菌肽是广泛存在于生物体内的一类具有广谱抗菌作用的天然多肽,因其不易导致细菌耐药性,已成为医药界开发新型抗菌制剂的主要选择,识别出更多的抗菌肽并预测其抗菌功能具有重要意义.提出了一种基于多标签直推学习的抗菌肽及其抗菌功能的预测方法,该方法利用K-spaced氨基酸对组成方法提取多肽特征,采用多标签学习框架和加权近邻图构建直推预测模型,通过对有标签训练样本和无标签待测样本的共同学习来提升预测性能.该方法不仅能够识别多肽是否为抗菌肽,还能同时预测出抗菌肽所具有的单种或多种抗菌功能,且适用于对多效抗菌肽和普通抗菌肽的预测.数值实验表明,与已有的iAMP-2L预测方法相比,所提方法在全局预测精度和多标签预测性能上均有较大提升.  相似文献   

13.
针对短期风电功率预测关键气象因素影响程度的差异和单一模型预测精度不足的问题,提出一种基于近邻成分分析(neighborhood components analysis, NCA)特征加权和Stacking集成预测的短期风电功率预测模型。考虑气象特征对风电功率影响程度不同,利用NCA对气象特征进行加权,将加权特征作为模型输入,强化关键特征的影响程度;在此基础上,构建多个基预测器预测风电功率,并利用结合器将预测结果融合,建立Stacking集成预测模型。算例分析表明,以加权特征作为输入的Stacking集成预测模型具有更高的短期风电功率预测精度。  相似文献   

14.
针对实际模式识别系统中样本特征常具有的连续值属性、高维性、强相关性和冗余性等影响分类效果的问题,在广义邻域粗集模型下提出一种集成特征选择及其选择性集成算法.该算法先提取样本特征并利用所提出的马氏距离分布熵评估其重要度,再基于特征重要度构建广义邻域粗集模型,并在此模型上以特征重要度为启发式信息设计基于蚁群算法的属性约简算法,然后通过改变广义邻域粗集模型参数的方式获得更多具有更大差异性的基分类器,最后利用主成分分析法对产生的基分类器进行选择性集成.模拟电路故障诊断结果表明,该算法比AdaBoost等算法取得的分类精度至少提高了2.6%.  相似文献   

15.
交通流量预测对于智能交通管理决策具有重要意义,为克服传统单一模型预测精度低、稳定性不足,同时为解决Stacking集成模型对基学习器输出信息利用率不高的问题,提出了一种双机制Stacking集成模型.双机制包括内机制和外机制,内机制通过在元学习器中引入注意力机制来调整网络中的特征信息,外机制通过在基学习器中融入动态权重系数来调整基学习器的输出信息.通过内外结合的双机制实现对基学习器输出信息动态变动规律的挖掘和提取并增强对基学习器输出信息的利用率,从而提升模型的预测精度和稳定性.选取I5NB高速公路上的76898条数据为实证研究对象,进行了基于随机森林、GBDT(gradient boosting decision tree)和Xgboost(extreme gradient boosting)单一模型、传统Stacking集成模型及双机制Stacking集成模型的预测对比分析.实证结果证明双机制Stacking集成模型预测精度最高,验证了该模型在短时交通流量预测中的有效性.  相似文献   

16.
针对复杂时间序列全局预测模型建模效率低、预测性能不佳等问题,提出一种基于局部RBF神经网络的新型预测模型.该模型采用K最近邻搜索方法得到待预测样本的K个近邻,用近邻样本进行RBF神经网络建模,用训练好的RBF神经网络对待预测样本进行预测.实验结果显示该模型在复杂时间序列预测上有良好的性能.  相似文献   

17.
一种新的选择性支持向量机集成学习算法   总被引:6,自引:2,他引:6  
针对支持向量机(SVM)在应用于集成学习中会失效的问题,提出一种选择性SVM集成学习算法(SE-SVM),利用ξα误差估计法估计个体SVM泛化性度量,并基于负相关学习理论引入差异性度量,通过递归删除法选择出一组泛化性能优良、相互间差异性大的SVM参与集成学习.基于UCI数据的仿真实验表明,SE-SVM能够平均提高SVM的分类正确率0.4%,比常规的Bag-ging集成学习方法和负相关集成学习方法的分类正确率分别提高了0.24%和0.16%.  相似文献   

18.
针对从蛋白质原始序列中预测蛋白质定位及功能信息这个生物信息学中研究的热点问题,提出进化模糊K近邻算法(Evolutionary Fuzzy K-Nearest Neighbor,EFKNN)直接处理多分类问题的预测模型,用EFKNN及其集成直接从蛋白质序列中预测蛋白质亚核定位。采用5种特征提取算法从蛋白质序列中提取特征,训练了5个基于EFKNN的基分类器,并根据得票量大小原则集成每个基分类器的分类结果作为待测样本的输出。将蛋白质亚核定位预测中常用的数据集SNL9作为训练集,利用jackknife测试方法预测了数据集中每条单定位亚核蛋白,正确率为70.0%,表明该模型可以作为蛋白质亚核定位预测的工具或对现有预测模型和方法的补充。  相似文献   

19.
灌浆量预测对坝基灌浆施工具有重要意义.由于灌浆工程隐蔽且复杂,传统方法难以实现准确高效的灌浆量预测.代理模型是一种能够建立影响因素与响应值之间近似关系的快速求解方法,然而单一代理模型的预测稳定性和准确性较低,组合代理模型仅将单一模型结果进行加权平均,预测精度仍有待提高.为解决上述问题,本文提出一种ISSA-Stacking集成学习代理模型新方法用于灌浆量预测研究.首先,针对灌浆量预测具有数据量小、影响因素与灌浆量之间非线性关系复杂且预测不确定性较大等特性,基于Stacking集成学习策略,选取在小样本预测中表现优越的支持向量回归(SVR)、具有良好非线性拟合能力的BP神经网络(BPNN)和预测泛化性能及稳定性高的随机森林(RF)等算法作为基学习器,采用自适应学习和不确定性处理能力强的自适应神经模糊推理系统(ANFIS)作为元学习器以集成上述机器学习算法的优势,构建具有更优预测性能和泛化能力的Stacking集成学习方法作为代理模型;其次,为进一步提高模型预测精度,采用混沌理论和Lévy飞行策略改进的麻雀搜索算法(ISSA)对集成学习代理模型进行参数同步优化;最后,将所提ISSA-Sta...  相似文献   

20.
在决策树集成中,准确性和多样性都很重要,精确且多样化的决策树构成的集成系统能够提高对未知样本的分类精度.提出了一种加权Jaccard距离WJD来度量决策树的多样性,对WJD的性质进行了分析,并用基于WJD的层次聚类算法来选择集成.在UCI数据集上的对比实验表明,WJD是一种有效的多样性度量方法,基于WJD的决策树集成选择能够达到较高的预测精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号