共查询到20条相似文献,搜索用时 0 毫秒
1.
盗窃类案件是公安机关较为棘手的一类犯罪,呈现高发低破态势.提前预测发案情况是预防该类型犯罪的有效途径,因此对预测盗窃犯罪提出了一种以Bagging方法为基础、基于特征选择准确度和差异性双重考量的集成学习算法,根据集成学习器好而不同的原则,构造由异质基学习器集成的特征选择器,实现对影响盗窃犯罪发生因子的有效选择,使用更少维度的特征数据集提升犯罪预测的效率和准确度.实验结果表明,提出的SEFV_Bagging算法具有较好的泛化能力和稳定性,在测试数据上表现出的预测准确度也较为理想,且算法无需根据先验知识设置所选特征子集维数,在盗窃犯罪数据分析预测领域应用中有较为明显优势. 相似文献
2.
[目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方法]提出一种基于贝叶斯优化的代价敏感轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型.首先引入误分类代价作为惩罚因子修正LightGBM的损失函数,其次通过阈值移动降低模型的分类阈值以提高针对少数类样本的预测准确率,最后利用贝叶斯优化算法优化误分类代价参数、分类阈值及其他参数.[结果]从KEEL数据库中选取5个典型的不平衡数据集进行对比实验,相较于标准LightGBM模型,改进LightGBM模型的AUC值和G-mean值均提升了10%左右;相较于遗传算法优化代价敏感LightGBM模型和粒子群优化代价敏感LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了4%左右;相较于ADASYN-LightGBM模型和BorderlineSMOTE-LightGBM模型,改进LightGBM... 相似文献
3.
一种基于级联模型的类别不平衡数据分类方法 总被引:6,自引:0,他引:6
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下. 相似文献
4.
为提高光伏电站辐照强度的预测精度,提出一种基于长短时记忆网络(long short term memory network,简称LSTM)和轻梯度提升机(light gradient boosting machine,简称LightGBM)的组合模型.以LightGBM模型的预测结果作为LSTM模型的一个特征输入,然后采用误差倒数法对以上两种模型的数据进行加权组合,得到组合模型的预测值.算例分析结果表明:与其他3种模型比较,该文组合模型的预测精度最高. 相似文献
5.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。 相似文献
6.
基于Bagging的交通拥堵预测研究 总被引:2,自引:0,他引:2
针对交通拥堵原因的多元性及单个神经网络拥堵模型准确率不高的特点,设计了一个以BP经网络为弱学习算法、基于Bagging集成学习方法的交通拥堵预测模型.与单个神经网络模型相比,Bagging后的预测模型具有更加优良的性能,可为市内交通预警决策提供分析与支持。 相似文献
7.
为解决转辙机故障诊断领域中存在的单一特征信息提取不足、单一诊断方法难以避免因方法局限性造成的分类误差,同时其存在一定程度的过拟合,以及泛化能力、鲁棒性不足的问题,提出了一种基于时空特征组合模型的故障诊断方法。首先,在ZYJ7电液转辙机的8种故障模式和正常模式所对应的油压曲线上提取时频域小波系数作为原始数据集,采用核主成分分析(KPCA)和长短期记忆网络(LSTM)提取其空间、时间特征,之后基于add思想构建时空特征集。其次,对卷积神经网络(CNN)、LSTM两分类器关键参数寻优后分别进行故障诊断,得到各个故障类型的概率值和误差系数。最后,利用误差倒数法对两分类器各个故障类型的概率值赋予权重,得到最终输出结果。仿真结果表明:CNN-LSTM组合模型诊断准确率达98.14%,较单一多层感知机(MLP)、CNN、LSTM模型准确率分别提升7.40%、5.55%、1.85%。可见此方法有效提高了转辙机诊断准确率,为集成学习模型在转辙机故障诊断领域的应用提供了一种思路。 相似文献
8.
提出一种自适应权值的支持向量机集成学习方法。该方法以Bagging方法为基础,结合部分AdaBoost算法权值更新的思想,给各个子分类器赋予权值,同时结合支持向量机本身的特性,对训练数据进行选择,加大训练样本的差异性。相比较传统的Bagging方法,结合SVM的特性来更有针对性的训练错分样本。文中使用4个UCI数据集进行对比实验,结果表明本文算法相比较传统的Bagging算法可以在一定程度上提高分类器的泛化能力。 相似文献
9.
提出应用Kriging模型对冷水机组进行故障检测与诊断(FDD),采用ASHRAE RP-1043项目中无故障运行数据建立并验证冷水机组Kriging模型.利用参数敏感性原理对比T-统计方法和指数加权移动平均(EWMA)方法,对比结果表明,EWMA方法提高了参数敏感性.结合Kriging模型、EWMA方法和故障诊断规则表,用实测故障数据对冷水机组故障进行检测与诊断,检测和诊断的故障包括冷凝器结垢、制冷剂充注过多、制冷剂泄漏、不凝性气体、冷冻水流量减少和冷却水流量减少6个故障.诊断结果表明,应用Kriging模型能够准确有效地检测与诊断冷水机组不同水平的故障. 相似文献
10.
整合创新数据预处理技术与集成算法利用不平衡数据探讨了公司破产预测问题。首先,运用冗余信息处理方法、不同抽样方法等对不平衡数据进行预处理。其次,以5.0分类器(Classifier 5.0,C5.0)决策树和单隐层前馈神经网络作为基分类器,分别与三类重抽样数据预处理技术结合,择出最优抽样法。再次,结合自助汇聚法提升分类效果,并运用十折交叉验证的受试者操作特征曲线的下方面积进行评价,对比了两基分类器的集成模型。最后,运用加利福尼亚大学尔湾分校数据库中一万多家波兰制造业公司的实际数据进行实验验证。实验结果表明:欠抽样或人工少数类过采样法与神经网络结合的集成模型分类效果最优,为企业实施破产预测提供积极支撑。 相似文献
11.
为改善传统循环神经网络预测梯度消失的问题,准确预测水位变化,采用门控循环单元(gated recurrent unit, GRU)和支持向量回归(support vector regression, SVR)构建组合预测模型,对广州市猎德涌的源头西湖水位进行预测。选择了3种不同核函数下的GRU-SVR(多项式核、RBF核、Sigmoid核)模型,并确定了最佳核函数组合,探索了GRU组合模型在水文时序预测中的有效性。该组合模型通过GRU提取雨量与水位间时空特征,SVR增强整体的非线性预测能力。结果表明,GRU-SVR(多项式核)适用于湖泊降雨时期预测,与CNN-GRU及GRU、SVR相比,该模型整体预测精度分别提升了3.2%、10.3%和59.3%。 相似文献
12.
吴晓兵 《北京理工大学学报》2000,20(5):576-580
进一步提高灰色门限关联分析方法在汽车变速箱故障诊断中的精度并改善其决策中的不协调性。将粗集理论处理决策规则的方法与灰色系统理论在机械故障诊断决策中的应用结合起来,找出各故障的最优参数,理论分析及试验结果表明,灰色粗集模型突出了各特征参数对不同故障的作用,因而该方法提高了诊断的精度,也改善了诊断的协调性。对灰色粗集模型基于规则的故障普遍存在的诊断精度不高和决策不协调问题有所改进。 相似文献
13.
针对铁矿粉库存量预测问题,结合灰色系统模型与时间序列模型的优点,提出一种基于多模型集成的库存量集成预测方法.根据库存量历史数据,分别建立基于残差修正的等维新息GM(1,1)模型与自回归积分移动平均模型ARIMA(p,d,q);采用基于信息熵的方法对2种模型进行加权集成;分别采用单一模型与集成模型对铁矿粉库存量进行预测.仿真验证结果表明:集成预测模型实现库存量的准确预测,在3种模型中预测结果最好. 相似文献
14.
提出一种通过建立测试-故障-维修关系模型,使故障现象的检测与维修策略有机结合,进而实现多故障自动诊断的方法,其在汽油机故障自动诊断仪中的应用表明该方法能清晰、准确给出复杂故障诊断与修复指导的有效途径. 相似文献
15.
为解决不均衡多分类问题,提出一种特征选择和AdaBoost的集成方法。首先,数据进行预处理。利用WSPSO算法进行特征选择,根据特征重要性选取初始粒子构建初始种群,使得算法初期就可以沿着正确的搜索方向开展,减少不相关特征的影响。其次,利用AdaBoost算法对于样本权重较敏感的特点,增强对小类样本的关注度。并且利用AUCarea作为评价标准,相对于其他评价标准,AUCarea具有可视化的优点且对较差AUC更加敏感。最后,与其他几种不均衡分类算法在不平衡数据集上进行对比,结果证明该算法可有效处理不均衡多分类问题。 相似文献
16.
基于XML与中间件的企业数据集成模型设计与实现 总被引:1,自引:0,他引:1
高晓玲 《兰州大学学报(自然科学版)》2009,45(Z1)
由于企业存在的异构数据环境,系统间无法实现信息共享,如何实现这些数据的统一访问,已经成为数据库研究领域中重要的研究方向.利用XML进行数据集成具有很好的扩展性,首先讨论了XML技术在异构数据集成中的应用特性,设计了基于XML中间件系统的集成模型,分析了各组成部分的功能,并对其集成中间件层的关键技术进行了研究与实现. 相似文献
17.
胡小生 《佛山科学技术学院学报(自然科学版)》2013,(5):22-26
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率. 相似文献
18.
先进的甘蔗压榨建模方法能够给生产提供指导,有利于提高糖厂的经济效益并节约能源.本文选择深度极限学习机(DELM)和长短期记忆网络(LSTM)作为基学习器,极端梯度提升(XGBoost)作为元学习器,构建了Stacking深度集成学习模型,用于甘蔗压榨抽出率的在线预测;并通过计算和实验,验证该方法的可行性和有效性.与其他模型相比较,本文所提模型的预测精度高5%~12%,并且对数据的敏感性更低,泛化性更好,能够适应甘蔗压榨的不同工况. 相似文献
19.
20.
当电池的异常特征不明显时,传统的电动汽车电池系统故障检测方法很难进行早期故障检测。当前大多方法都是基于实验室条件下的测试数据进行研究,利用电动汽车实际运行数据的研究较少。为解决上述问题,提出一种基于真实数据的电动汽车电池系统内短路故障在线检测方法,通过经验模态分解提取分解后的电压残差值作为故障特征,结合香农熵权重法,以每个采样点的香农熵的冗余度作为权重,对串联电池系统中各电芯单体进行评分,结合改进Z-分数,实现对串联电池组的故障检测和定位。利用真实车辆数据进行验证并与阈值法和相关系数法进行比较,验证了该方法的有效性。结果表明,所提出的方法计算成本低、可靠性高,能够在线应用,不需要精确的模型且无需针对不同型号车辆的得分阈值进行试验,降低了试验成本。 相似文献