首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
交通流量预测对于智能交通管理决策具有重要意义,为克服传统单一模型预测精度低、稳定性不足,同时为解决Stacking集成模型对基学习器输出信息利用率不高的问题,提出了一种双机制Stacking集成模型.双机制包括内机制和外机制,内机制通过在元学习器中引入注意力机制来调整网络中的特征信息,外机制通过在基学习器中融入动态权重系数来调整基学习器的输出信息.通过内外结合的双机制实现对基学习器输出信息动态变动规律的挖掘和提取并增强对基学习器输出信息的利用率,从而提升模型的预测精度和稳定性.选取I5NB高速公路上的76898条数据为实证研究对象,进行了基于随机森林、GBDT(gradient boosting decision tree)和Xgboost(extreme gradient boosting)单一模型、传统Stacking集成模型及双机制Stacking集成模型的预测对比分析.实证结果证明双机制Stacking集成模型预测精度最高,验证了该模型在短时交通流量预测中的有效性.  相似文献   

2.
本研究提出基于妊娠早期体检、基因信息,结合集成学习的妊娠期糖尿病预测分类方法.设计了基于Stacking框架的改进模型ACS-Stacking.ACS-Stacking模型将基分类器输出的类别概率值作为基层输出结果,元层使用GBDT模型学习组合基层输出的类别概率结果,拓展了算法的层次结构.在基分类器层与元分类器层之间加入基分类器筛选层,通过CFS算法估计不同分类器集合中个体分类器准确性与多样性的权衡值,筛选出最佳基分类器集合,实现基分类器的自适应选择.研究结果表明,该模型F1值较单一模型提高约9%,较Stacking模型提高约7%,具有较好的预测准确性和稳定性.  相似文献   

3.
针对目前大多数钓鱼网站检测技术准确率低、计算资源消耗大和检测不及时等问题,本文提出一种基于改进Stacking策略的钓鱼网站检测方法。该方法将多个分类表现优异的基学习器通过Stacking策略集成为一个高性能模型,并且把该Stacking算法第一级的输入特征与预测结果同时作为第二级的输入特征,充分发挥各模型精度高、速度快等优势,从而进一步提高模型性能。实验结果表明,与传统的机器学习钓鱼网站检测技术相比,在10万级数据集上,此集成学习算法在多个指标上都表现出更好的性能,精确率达到了97.82%,F1值达到97.54%,可以有效地检测钓鱼网站。  相似文献   

4.
结合P2P网贷平台的特点,融合Logistic回归和Tabnet模型,提出一种P2P网贷违约预测方法。采集人人贷平台借贷数据,并对数据进行清洗与加工预处理;通过信息价值法和相关性分析,对众多解释变量进行筛选,以借款状态作为因变量,采用Tabnet神经网络进行训练,根据训练得到的特征重要性选择关键的解释变量;将Tabnet神经网络预测结果作为新的训练数据集,构建Logistic回归模型;将人人贷数据集输入Logistic回归学习与训练,以训练好的Logistic回归用于网贷违约预测。实验结果表明,Tabnet模型的网贷违约平均预测准确率和精确率分别为9958%、9547%,Logistic回归的平均准确率和精确率分别为9872%、9221%,而融合模型的平均准确率和精确率分别为9960%、9672%;在3个测试集上的准确率标准差分别为0001 4、0000 6、0000 5,精确率标准差分别为0034 4、0013 3、0013 2。表明融合Logistic回归与Tabnet的网贷违约预测方法具有Logistic回归模型的可解释性与稳定性,可提高单一模型的预测精确度。  相似文献   

5.
在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,使用熵值法确定单一分类器的性能指标权重,将指标值的权重进行加权求和获得不同模型的综合得分,通过综合得分来选择性能最好的基学习器组合;接着,由于基模型中的各个分类器性能的不同,将基学习器训练后的预测结果赋予不同的权重,输入到次级学习器当中;最后再利用次级学习器进行训练并预测情感倾向。实验结果表明,基于熵值法改进Stacking模型优于传统的Stacking模型,说明基学习器的选择和重要程度对情感分类具有一定帮助,为之后文本情感分析奠定一定的基础。在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,...  相似文献   

6.
电力设备的负荷曲线随着时间而变化,其本质上是时间序列数据.为此提出了一种新的通过负荷曲线识别电力设备的方法,该方法在多个粒度划分出的负载曲线上使用卷积神经网络作为基分类器构造出一个集成学习器来提高分类精度.首先我们对原始数据进行不同粒度的划分,得到若干不同的新数据集.其次使用这些新的数据集训练不同的基学习器,并根据验证集上的精度得到不同基学习器的权重.将测试样本按照相同的粒度划分方式得到不同的测试数据集,使用不同的基分类器对这些测试数据集进行测试,得到对应的预测标签.最后对不同基分类器预测的标签进行加权,并选出权重最大的那个标签作为预测标签.在实际的电力负荷数据上将该模型与单个CNN模型进行对比,实验结果表明,该模型具有更高的设备识别精度.  相似文献   

7.
针对短期风电功率预测关键气象因素影响程度的差异和单一模型预测精度不足的问题,提出一种基于近邻成分分析(neighborhood components analysis,NCA)特征加权和Stacking集成预测的短期风电功率预测模型。考虑气象特征对风电功率影响程度不同,利用NCA对气象特征进行加权,将加权特征作为模型输入,强化关键特征的影响程度;在此基础上,构建多个基预测器预测风电功率,并利用结合器将预测结果融合,建立Stacking集成预测模型。算例分析表明,以加权特征作为输入的Stacking集成预测模型具有更高的短期风电功率预测精度。  相似文献   

8.
针对网络流量预测准确率不够高的问题,结合当下流行的集成学习(Ensemble Learning),提出一种Stacking集成多种模型的网络流量预测方法;将天气因素量化后作为输入,使用7个机器学习模型分别对网络流量进行预测,然后根据对不同模型预测结果的Pearson相关系数的分析,选取相关性较弱的5个模型作为Stacking的基模型,进行网络流量的预测,并与不考虑天气因素的预测结果进行比较;结果显示:Stacking方法相较于各基模型都有更好的表现,同时,天气因素的加入使得模型预测结果的准确性提高了;Stacking方法将不同的预测方法进行组合,相较于神经网络方法能以不同模型对数据进行不同角度的处理,能获得比一般方法准确率更高的预测结果,对于网络流量的预测具有一定的实用价值。  相似文献   

9.
为了快速准确地进行工程造价预测,本文收集高层住宅工程造价历史数据,利用相关性系数法对定量指标进行约简,运用Python构建了以随机森林、XGBoost和岭回归作为初级学习器,岭回归作为元学习器的Stacking集成学习的融合模型。结果表明:基于Stacking融合模型预测精度较高,结果稳定,平均绝对误差在5%以内,有助于项目建设前期的造价预测。  相似文献   

10.
针对加密流量特征稀疏与难以通过单一方法进行表征的问题,文章提出一种基于特征回放的集成学习方法,包括预特征提取、特征回放、集成学习三个阶段。首先,收集报文的到达平均时间间隔、最大长度等常用统计信息作为数据集的原始特征,其次,训练多个预分类器并将这些分类器的预测结果作为新的特征加入数据集中,最后,借鉴Stacked Generalization的集成思想训练最终的决策分类器。利用Cyberflood构建多种类别的加密流量数据并进行相关实验,结果表明本文方法在准确率上比已有分类方法提高了近5%。  相似文献   

11.
该文以沪深300为投资标的池,选取波动指标、收益指标、经典技术指标和交易指标等4大类指标共24个二级指标作为评价因子,用递归特征消除法结合Stacking集成学习以及传统的随机森林、支持向量机和逻辑回归等4个机器学习算法分别构建分类模型,预测投资标的池中周频收益率排名前20%的股票标的,为投资者提供量化投资策略.实证研究对这4个模型的分类预测效果进行了比较.结果表明,基于递归特征消除法和Stacking集成学习的模型的预测性能最高,其AUC值达到0.644 7,准确率为60.21%,精确率为59.87%,召回率为62.65%,F1值为61.23%.因此,基于递归特征消除法和Stacking集成学习的模型能够有效地为投资者选取高收益率的投资标的,是一个可行的基于机器学习的量化投资策略.  相似文献   

12.
灌浆量预测对坝基灌浆施工具有重要意义.由于灌浆工程隐蔽且复杂,传统方法难以实现准确高效的灌浆量预测.代理模型是一种能够建立影响因素与响应值之间近似关系的快速求解方法,然而单一代理模型的预测稳定性和准确性较低,组合代理模型仅将单一模型结果进行加权平均,预测精度仍有待提高.为解决上述问题,本文提出一种ISSA-Stacking集成学习代理模型新方法用于灌浆量预测研究.首先,针对灌浆量预测具有数据量小、影响因素与灌浆量之间非线性关系复杂且预测不确定性较大等特性,基于Stacking集成学习策略,选取在小样本预测中表现优越的支持向量回归(SVR)、具有良好非线性拟合能力的BP神经网络(BPNN)和预测泛化性能及稳定性高的随机森林(RF)等算法作为基学习器,采用自适应学习和不确定性处理能力强的自适应神经模糊推理系统(ANFIS)作为元学习器以集成上述机器学习算法的优势,构建具有更优预测性能和泛化能力的Stacking集成学习方法作为代理模型;其次,为进一步提高模型预测精度,采用混沌理论和Lévy飞行策略改进的麻雀搜索算法(ISSA)对集成学习代理模型进行参数同步优化;最后,将所提ISSA-Sta...  相似文献   

13.
为解决现有恶意代码检测方法存在的特征提取能力不足、检测模型泛化性弱的问题,提出了一种基于Windows API调用序列的恶意代码检测方法.使用N-gram算法和TF-IDF算法提取序列的统计特征,采用Word2Vec模型提取语义特征,将统计特征和语义特征进行特征融合,作为API调用序列的特征.设计了基于Stacking的三层检测模型,通过多个弱学习器构成一个强学习器提高检测模型性能.实验结果表明,提出的特征提取方法可以获得更关键的特征,设计的检测模型的准确率、精确率、召回率均优于单一模型且具有良好的泛化性,证明了检测方法的有效性.  相似文献   

14.
针对当前软件缺陷序列预测算法准确度不高的问题,提出了基于非线性加权的集成学习软件缺陷序列预测算法(NLWEPrediction)。该算法在常见线性集成预测算法的基础上增加了非线性回归项,回归项代表了集成预测算法中基预测算法之间的相互关系,修正了线性集成预测的偏差,并通过梯度下降法求解了模型中的参数。实验表明:NLWEPrediction在14个软件缺陷数据集上的均方误差均小于250,并且平均绝对误差均小于13。通过与基预测算法、集成预测Bagging、Stacking算法和只考虑两个分类器关系的非线性加权集成学习算法进行对比,可以看出,NLWEPrediction预测算法的均方误差和平均绝对误差显著减小,预测精度显著提高,说明在线性集成预测算法基础上增加非线性回归项,能够有效提高集成学习算法的分类效果。  相似文献   

15.
针对当前电网单一学习器窃电检测方法准确率低、实时性差且无特征提取的问 题,提出一种基于卷积神经网络轻梯度提升机(CNN-LG)模型的窃电行为检测方法. 通过卷积 神经网络(CNN)提取用户用电数据电力特征,将提取特征输入以决策树为基学习器的轻梯度 提升机(LG)分类器对数据进行训练,据此建立基于卷积神经网络轻梯度提升机模型的窃电行 为检测方法 . 采用基于卷积神经网络轻梯度提升机模型对国家电网和爱尔兰智能能源径 (ISET)数据集分别进行窃电行为检测 . 实验结果表明,本文提出方法可快速准确实现电网中 各类窃电行为检测,相比于现有检测方法具有更高准确度、更优泛化性能和实时性.  相似文献   

16.
针对直接集成简单分类器对交通标志数据库进行识别出现的类别预测效果较差的问题,提出一种基于卷积神经网络(CNN)和Bagging集成学习的交通标志识别算法,采用爬虫和图像增强技术实现交通标志数据集的扩充,以CNN网络提取交通标志图像的特征,通过采用最大池化层实现图像数据下采样,采用较浅的网络深度以简化整体网络结构。在CNN网络特征提取的基础上,利用软投票机制对多项Logistic、K近邻、SVM个体学习器进行集成,实现较准确的交通标志识别。实验结果表明,该算法在TSRD交通标志识别数据库测试集上的识别准确率达到了93.00%,相对于未改进的卷积神经网络模型识别准确率提高了11.99个百分点,并较高于通过VGG16和ResNet50迁移学习实现的识别准确率,具有较快的收敛速度。  相似文献   

17.
用户属性在个性化服务中具有重要的作用,利用手机数据进行用户属性预测逐渐成为新方向.利用手机应用类别均使用时长和应用类别个数,提出了基本属性与辅助属性的概念.首先对所有未标注样本的辅助属性离散化,将辅助属性基于类别的海灵格距离作为基本属性的特征权重,将基本属性与权重的乘积作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,得到最终的分类结果.实验结果表明,本文所给出的集成分类器框架能够提高用户属性预测的效果.  相似文献   

18.
用户信用卡违约预测任务有助于银行等金融机构平衡经济风险与经济利益,对于银行信用卡业务的风险管控具有重要作用。针对用户信用卡违约预测问题,提出了一种基于集成学习的预测模型,有异于传统集成学习中的弱学习器。该模型采用集成模型和神经网络模型作为基学习器,从而提升模型整体的预测效果。首先通过预处理提取用户信用卡数据集的相关特征,然后分别采用优化后的决策树、随机森林、GBDT、XGBoost、CatBoost和SPE六种机器学习模型与神经网络模型进行并行训练和预测,最后通过加权软投票法集成基学习器结果并输出最终预测结果。结果表明,相对于基学习器,该模型在各项评估指标上均有所提升,且拥有更好的模型泛化能力。  相似文献   

19.
根据影响网络货运平台车货匹配的指标,结合车货市场实际情况,建立网络货运平台车货匹配初始特征集,利用Lasso回归模型和皮尔森相关系数去除价值较低的特征,得到最佳特征集,将其作为网络货运平台车货匹配预测模型的输入。选择具有集成学习特点的Stacking模型作为网络货运平台车货匹配预测模型,通过各基学习器对特征集的训练与测试,得到相应的预测结果,形成新的特征集输入至元学习器,再通过元学习器的训练与测试输出最终网络货运平台车货匹配预测结果。实验证明:该方法可以精准预测网络货运平台车货匹配情况,有效提升资源利用率,具有较强的应用价值。  相似文献   

20.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器的权重.Shapelets是时间序列的子序列,不同变量Shapelets间不存在依赖关系,且单个Shapelets分类准确度较高,能得到“好而不同”的基分类器.然后,提出一种加权概率指派算法,增加分类准确率高的基分类器权重,减少分类准确率低的基分类器权重;添加了2个组合策略,即消除证据冲突,又提高了效率.在标准数据集上与多个最新算法进行比较,笔者算法取得了较好的分类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号