首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
在数据挖掘研究领域,分类任务广泛存在着数据分布不均衡问题,例如制造状态检测,医疗诊断,金融服务,等等.SMOTE是处理不均衡数据分类问题的常用技术,与Boosting算法相结合可进一步提升分类系统性能,但是这种集成学习容易导致基分类器多样性缺失.基于此,本文提出了一种基于高斯过程SMOTE过采样的Boosting集成学习算法(Gaussian-based smote in boosting,GSMOTEBoost).该算法在Boosting集成框架下构建不均衡学习模型,为了提高分类系统的鲁棒性,采用基于高斯过程SMOTE过采样技术来增加基分类器训练样本的多样性,从而提高基分类器之间的差异.为了验证算法的有效性,以常用的处理不均衡分类问题的算法作为对比方法,采用KEEL数据库里的20个标准数据集对算法进行测试,以G-mean,F-measure以及AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.实验结果表明,相对于其他算法,本文提出的GSMOTEBoost具有显著的优势.  相似文献   

2.
不均衡数据问题在我们日常生活中随处可见,例如疾病诊断,矿藏资源识别等等.对于不均衡数据的分类而言,目前基于集成学习的不均衡数据分类技术较为成熟,但现有方法都将不均衡数据作为一个整体考虑,而不区别对待不同类型的不均衡数据.事实上,不均衡数据因其不均衡比、数据维度和类别数的不同,所具有的数据分布也不同,使用统一的模型处理所有不均衡数据难以在所有数据集中都获得好的效果.基于此,本文提出了一种基于差分演化算法的自适应集成学习算法(adaptive multiple classifier system based on differential evolution algorithm,DE-AMCS),使得针对不同的不均衡数据,系统能够选择最优的集成学习模型来完成分类任务.本文选择了KEEL数据集中的10个数据集进行测试,测试结果与5个现有的集成分类算法进行了对比,实验表明DEAMCS相比于对比算法,分类精度上有明显的提升.最后,本文将DE-AMCS应用到江汉油田某区五口井的石油储层含油性的识别中,在每口井的含油性识别中,精度均达到了100%.  相似文献   

3.
基于GMDH的“一步式”客户流失预测集成建模   总被引:1,自引:1,他引:0  
在客户流失预测问题中, 客户数据的特征往往会影响模型的预测效果.分析了常用的“两步式”客户流失 预测方法的不足,提出了基于数据分组处理(GMDH)技术的“一步式”客户流失预测集成研究框架.该框架一方面 将数据预处理和客户流失预测建模过程进行集成,另一方面用多分类器集成策略进行客户流失预测建模.以客户数据类别分布不平衡的客户流失预测问题为例,构建了与数据特征相适应的“一步式”集成模型. 实证结果表明,该方法能够更有效地进行客户流失预测.  相似文献   

4.
本文集成了经验模态分解(EEMD)、最小二乘支持向量回归(LSSVR)和K均值聚类方法,提出了一个新的外汇汇率预测方法,称为基于EEMD-LSSVR-K的分解-聚类-集成学习的外汇汇率预测方法.该方法利用聚类策略将分解-集成学习中固定权值集成学习扩展到基于局部数据特征加权的非线性集成加权学习,从而克服了分解-集成方法中集成学习阶段的不足.本文将该方法用于四种主要外汇汇率的预测,实证结果表明:在提前1天、提前3天和提前6天的预测中,本文所提出的EEMD-LSSVR-K方法的水平预测性能和方向预测性能显著地优于基准模型;同时也证实了聚类策略能够有效提高分解-集成模型的预测效果.  相似文献   

5.
汇率预测非常困难,其波动具有时变性、随机性和模糊性等统计特征.现存文献中各种方法和模型的预测效果受很多因素影响,其预测力都不及随机游走模型,这就是汇率预测领域所谓的"米斯和罗格夫之谜(The Meese and Rogoff puzzle)".本文使用非参数方法研究汇率波动及其预测模型,发现较之任何参数方法、半参数方法都具有更大的灵活性.为了克服"维数魔咒",本文提出非参数可加模型来研究汇率预测问题.与现有模型相比,在同样的观察样本期内,非参数可加汇率预测模型有更好的样本外预测能力,这有力地证明了"米斯和罗格夫之谜"并非难以破解.此外,我们将非参数可加汇率模型应用于人民币对美元的汇率预测,其结果仍然揭示了该模型很好的拟合度和预测能力.本文为汇率预测这一研究领域提供了新的研究思路和方法.  相似文献   

6.
针对时间序列包含噪声以及单一模型可能存在预测表现不稳定的问题,本文提出了一个基于奇异谱分析(SSA)的集成预测模型,并将其运用于我国年度航空客运量的预测中.首先,采用SSA方法对原始时间序列进行分解和重构,得到一个剔除噪声的时间序列,然后将其作为单整自回归移动平均模型(ARIMA)、支持向量回归模型(SVR)、Holt-Winters方法(HW)等单一模型的输入并进行预测,接着再采用加权平均集成预测方法(WA)将三种单一模型的预测结果进行综合集成.通过与各单一模型、基于经验模态分解方法(EMD)的模型以及简单平均集成预测方法(SA)的预测结果进行对比发现,本文所建模型具有较高的预测精度和较稳定的预测表现.最后,采用本文的模型对我国2014-2016年年度航空客运量进行了预测.  相似文献   

7.
自2019年12月以来,新冠肺炎(COVID-19)疫情在全球范围内持续扩散,不仅严重危害到世界各国人民的生命健康,对公共医疗卫生体系提出严苛考验,还对经济贸易活动造成了巨大冲击,对国际社会产生了深远影响.一些研究采用数学预测模型对病毒传播和疫情发展进行模拟仿真,以帮助研究人员和政策制定者了解病毒传播机理,采取合理防疫政策进而抑制病毒进一步传播.然而现有研究存在一定局限性,例如方法选择单一、过于依赖模型参数选择、病毒传播与政策调整导致的数据时变性等问题.为解决上述问题,本文提出了基于时变模型平均(TVJMA)、时变参数模型(TVP)、传染病vSIR模型(vSIR)、逻辑回归模型(LR)、多项式回归模型(PNR)、自回归移动平均(ARMA)六种模型方法的综合集成预测框架,对不同地区疫情最为严重的6个国家的累计确诊人数进行预测.结果表明,对于单一预测方法,TVJMA方法表现优于其他五种方法;综合集成预测方法在绝大多数情况下明显优于单一方法,特别是基于误差修正权重的多模型组合预测方法,显著地提高了预测精度.对于不同预测步长,综合集成预测方法具有稳健性.  相似文献   

8.
在基于随机滤波理论的剩余寿命预测模型中,模型参数的获取是离线的,且当历史数据较少时,模型参数不能够进行修正,影响了预测精度.针对以上问题,采用递归期望最大化(Recursive Expectation Maximization,REM)算法来对模型参数进行递归更新,提出了基于参数递归更新的剩余寿命实时预测模型.应用实际的监测数据和参数递归更新的寿命预测模型,进行了某导弹陀螺仪的寿命预测实验.仿真结果表明,该预测模型能够根据实时的数据对模型参数进行快速地更新,满足预测的实时性要求.  相似文献   

9.
基于多分类器动态集成的电信客户流失预测   总被引:1,自引:0,他引:1  
本文提出了一种新的基于多分类器动态选择与优化集成的电信客户流失预测集成模型.首先使用K均值聚类算法对训练集样本进行分区;然后分别使用Naive-Bayes算法、多层感知机算法和J48算法构建各分区客户流失预测子分类器;最后对各分区子分类器进行线性集成,并使用人工蜂群算法优化其集成权重.当测试样本由聚类算法判断出其归属区域后,再分别使用分区子分类器进行预测,最后使用优化权重进行线性集成.实验结果表明:动态集成模型优于单模型;基于人工蜂群算法优化集成模型优于其它集成模型.  相似文献   

10.
针对LSSVM参数难以确定和单一方法预测精度不高的问题, 提出一种基于粒子群优化LSSVM灰色组合预测模型的学习方法. 利用粒子群算法的收敛速度快和全局优化能力, 优化LSSVM模型的惩罚因子和核函数参数. 避免了人为选择参数的盲目性. 在同一时刻利用不同长度序列的灰色预测方法对历史数据进行初步预测, 将初步预测结果的组合作为LSSVM的输入, 该时刻的实际值作为输出, 进行训练建立灰色LSSVM组合预测模型, 提高了模型的推广预测能力. 选取三江平原某地区1985年至2006年地下水埋深实测数据, 建立PSO-LSSVM组合预测模型. 通过两种方式对模型进行检验, 与其他模型相比, 该组合模型具有较高的预测精度.  相似文献   

11.
针对电子健康服务管理中的多源数据融合难题,利用人工智能技术,结合多任务学习理论与支持向量机理论提出基于多任务支持向量机的数据融合方法(multi-task support vector machine for data fusion,简称mSVMDF).该方法对具有相同数据源的特征向量构造基于支持向量机的融合模型,在多任务学习框架下考虑结构稀疏性与各模型关联性的有机结合,以实现对具有不同数据源个数的多源数据的融合,并以多源影像数据与常规检验数据融合为例,开展数值实验验证方法的有效性.实验结果表明mSVMDF方法可以有效地融合具有不同数据源个数的多源数据,同时该方法具有较好的分类性能与结构稀疏性.  相似文献   

12.
教育数据挖掘(educational data mining)是当代教育信息化发展的前沿研究领域,正在吸引越来越多教育学家和数据科学家的关注."大数据"时代背景下,随着数据处理规模的不断激增,现有的数据挖掘模型在单一处理节点的计算能力遭遇瓶颈,各类面向大数据处理的分布式计算框架应运而生.借助这些框架,面向解决高校就业数据挖掘问题的机器学习模型便可以满足未来大规模数据处理的需求,在未来数据集体量庞大的信息集成系统中为数据挖掘和决策支持提供帮助.以此为背景,本研究对比现有数据模型对研究目标对象的分类性能,提出了以引入输入特征加权系数来计算特征的信息增益作为特征最优分裂评判指标的改进随机森林模型来提升数据分类性能,通过仿真测试改进模型对于现有模型分类性能的提升情况,与此同时为解决大数据时代背景下面向海量数据分类任务的单节点性能瓶颈问题,提出了基于分布式改进随机森林算法的大规模学生就业数据分类预测模型.通过使用MapReduce分布式计算框架实现已训练模型在本地磁盘与分布式文件系统之间的序列化写入与反序列化加载过程,进而实现了基于改进随机森林模型的大规模数据分类模型的分布式扩展.  相似文献   

13.
针对机载设备电子电路故障状态测试数据少、整体测试数据不均衡的问题,提出了一种基于样本重采样的数据预处理方法。首先,采用超限学习机对原始数据集进行训练以挑选出分类准确的样本。然后,对其中的少数类和多数类分别采用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)进行过采样和局部密度欠采样处理;并将错误分类的多数类样本作为干扰因素进行删除。通过以上两种手段可以均衡数据集,并控制数据规模防止过拟合,提高对故障样本的检测率。实测数据处理结果表明,相比于其他重采样算法,所提算法整体效果优良且稳定,对电子电路故障诊断具有一定的应用价值。  相似文献   

14.
针对机载设备电子电路故障状态测试数据少、整体测试数据不均衡的问题,提出了一种基于样本重采样的数据预处理方法。首先,采用超限学习机对原始数据集进行训练以挑选出分类准确的样本。然后,对其中的少数类和多数类分别采用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)进行过采样和局部密度欠采样处理;并将错误分类的多数类样本作为干扰因素进行删除。通过以上两种手段可以均衡数据集,并控制数据规模防止过拟合,提高对故障样本的检测率。实测数据处理结果表明,相比于其他重采样算法,所提算法整体效果优良且稳定,对电子电路故障诊断具有一定的应用价值。  相似文献   

15.
为满足现役装备根据故障样本数据集积累的特点进行自适应故障诊断的需求, 本文将极限学习机(extreme learning machine, ELM) 的数据增量学习、隐藏层增量学习和输出层增量学习(类增量学习)3种增量学习模式, 融合到一个统一的学习框架内, 提出一种凸最优自适应增量在线顺序ELM(convex optimal adaptive incremental online sequential ELM, COAIOS-ELM)。模型能够根据增量学习中误差的变化情况, 自适应地增加隐藏层神经元, 减小分类误差; 并可根据增量数据集中新出现的故障类别, 进行相应的类增量学习, 增加故障诊断的范围。有效解决了ELM增量学习过程中模型自适应动态选择最佳网络结构的问题, 提高模型的故障诊断的精度和故障诊断的范围。本文选择UCI数据集中公共数据集和Biquad低通滤波电路故障诊断数据集, 通过与类增量ELM (class incremental ELM, CI-ELM)模型对比实验, 验证了所提方法的有效性。  相似文献   

16.
在认知无线电网络中,高效且准确的频谱感知是必不可少的一个环节。针对传统机器学习算法在频谱感知训练慢的难题,提出一种基于卷积神经网络的正交频分复用(orthogonal frequency division multiplexing,OFDM)频谱感知方法,将深度学习在图像处理上的优势应用到OFDM信号频谱感知中。该方法首先分析OFDM信号的循环自相关和频谱感知模型,对循环自相关进行归一化灰度处理,形成循环自相关灰度图;然后以LeNet-5网络为基础设计卷积神经网络分层地对训练数据进行学习,提取出更加抽象的特征;最后将测试数据输入到训练好的卷积神经网络模型,完成频谱感知。仿真实验表明,该方法能够完成OFDM信号的频谱感知,在低信噪比条件下具有较高的检测概率。  相似文献   

17.
传统的辐射源识别通过比对、匹配辐射源信号与雷达数据库来识别,这种方法很难满足战时高效、快速和准确的识别要求.随着机器学习方法的提出,诸如支持向量机等算法在辐射源识别领域的运用,可以满足战时高效、快速的识别要求,但这种方法在低信噪比环境下,辐射源识别准确率低.针对上述问题,采用深度学习,引入注意力机制和特征融合方法,提出...  相似文献   

18.
蔡勇  肖建 《系统仿真学报》2007,19(15):3614-3618
分析了点云建模的特点,将基于统计学习理论的支持向量机引入该领域。首先提取点云数据中的强特征,采用支持向量回归机构建轮廓;然后在轮廓形成的不同区域分别提取弱特征,用回归的方式逐步重构区域纹理,从而得到整个物体的表面表达。理论分析和实验结果表明该方法的精度和处理速度优于人工神经网络,具有一定的实用性,为点云建模研究提供了一种新的思路。  相似文献   

19.
基于模糊C-均值聚类与支持向量机的PMV指标预测系统   总被引:1,自引:0,他引:1  
为了更好地预测室内热舒适度PMV指标,在分析模糊C-均值聚类方法与支持向量机方法的优势和互补性后,探讨了二者的结合方法,提出了一种基于模糊C-均值聚类预处理的支持向量机PMV指标预测系统.该方法把复杂的数据集看作多个群体的混合,每个群体采用单一的回归模型进行描述,使得大规模数据集的回归估计问题变成了一个多模型估计问题.将该系统应用于PMV指标预测中,与标准支持向量机方法相比, 得到了较高的预测精度,从而说明了基于模糊C-均值聚类方法作为信息预处理的支持向量机学习系统的优越性.  相似文献   

20.
为了对航空电子设备的测试数据进行有效约简, 去除冗余信息和不相关特征, 基于机器学习领域现有的特征选择算法, 提出了一种元学习框架下的航空电子设备特征选择算法推荐方法。所提方法旨在根据不同航空电子设备测试数据所蕴含的信息, 推荐合适的特征选择算法。首先, 分析了数据集特征的描述方法。然后, 介绍了采用综合度量指数的算法性能评价方法。最后, 给出了特征选择算法推荐方法的框架。使用42个航空电子设备的测试数据和13个过滤型特征选择算法建立了元数据库, 采用留一法进行交叉验证, 推荐命中率达到了90%以上, 推荐性能比例达到97%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号