首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 177 毫秒
1.
[目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方法]提出一种基于贝叶斯优化的代价敏感轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型.首先引入误分类代价作为惩罚因子修正LightGBM的损失函数,其次通过阈值移动降低模型的分类阈值以提高针对少数类样本的预测准确率,最后利用贝叶斯优化算法优化误分类代价参数、分类阈值及其他参数.[结果]从KEEL数据库中选取5个典型的不平衡数据集进行对比实验,相较于标准LightGBM模型,改进LightGBM模型的AUC值和G-mean值均提升了10%左右;相较于遗传算法优化代价敏感LightGBM模型和粒子群优化代价敏感LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了4%左右;相较于ADASYN-LightGBM模型和BorderlineSMOTE-LightGBM模型,改进LightGBM...  相似文献   

2.
传统的机器学习方法在处理类别不平衡数据时分类性能较低,为此提出一种基于类别不平衡数据的层次分类模型.层次分类模型采用AdaBoost方法为基准分类器,以分类器误报率和特征建立数学模型,并证明层次分类模型的参数可以计算得到.首先以层次分类树为结构建立模型,接着针对层次分类树的结构模型进行分类代价计算,得到模型的代价与每层特征之间的定量数学描述,然后将该分类代价转换为优化问题并给出优化问题的求解过程,同时给出层次分类模型的计算结果.在UCI数据集上进行大量测试,以AUC和F-Measure为评价标准,相比于现有的不平衡分类方法,层次分类模型具有更优的分类性能.  相似文献   

3.
针对传统核主元分析没有考虑误分类代价的差别、对故障工况不敏感等问题,提出代价敏感核主元分析方法.该方法将代价敏感机制引入核主元分析,以误分类代价最小化为目标,设计最佳阈值调整方法获取最佳阈值,并采用混沌粒子群算法对核参数进行优化,最后利用SPE(squared prediction error)统计量诊断新样本类别.研究结果表明:该方法能有效地降低误分类代价,具有故障敏感性和诊断准确率高以及泛化能力强等特点.  相似文献   

4.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

5.
大间隔分布学习机(LDM)在应用于不平衡据分类时,由于忽略类别不均衡,会使少数类样本的识别率较低。针对这一不足,结合代价敏感思想提出了一种不平衡代价敏感大间隔分布算法(ICS-LDM)。首先,在计算间隔均值和间隔方差时,结合数据集的不平衡因子和样本错分代价参数,调整不同类别的间隔分布权重;其次,将可以快速收敛的循环对偶坐标下降法应用于求解目标函数;最后,通过逐渐提高少数类的间隔分布,可以实现间隔分布在各类别平衡且总体最大。在虚拟数据集和UCI公开数据集上的实验结果表明,ICS-LDM可以有效提高少数类的分类精度,平衡各类的分类性能。  相似文献   

6.
提出一种区分不同类别误分代价的支持向量机模型,建立了拉格朗日方程,利用KKT条件推导出其对偶形式.该模型能够让用户标记不同类别样本的重要性,并根据重要性程度设定不同的误分代价,使重要类别的样本尽量减少被误分的可能性,以满足特定任务的需求.实验结果表明,该模型可以很好地完成特定任务的分类.  相似文献   

7.
提出了一种自适应代价优化算法ACO,利用"登山式"方法查找最适合重采样数据子集的最优误分类代价值用于建立基分类器,克服了固定式误分类代价不尽科学和客观的缺点,利用重采样技术实现了数据集样本不足时的分类器训练.通过"投票"方式对原始数据集中的实例重新标记类标,学习得到一个适应于类分布不均衡数据集的自适应的集成分类器.实验证明,用自适应代价优化算法实现的分类器在类分布不均衡的数据集上的分类性能明显优于CSC,MetaCost和naive Bayes等建立的分类器.  相似文献   

8.
针对小微企业信用历史数据规模较小,而且类别不平衡问题较为严重,提出基于样本依赖代价矩阵的Smote XGboost-Bayes Minimum Risk(SXG-BMR)模型,对整体样本进行低倍率过采样,以弱化类别不平衡问题,降低模型过拟合的风险;模型将集成学习模型与最小风险贝叶斯决策相结合,以实现代价敏感。同时,模型中引入了样本依赖的代价矩阵,该代价矩阵不仅与类别有关,而且与样本自身属性有关,可以更为准确地表征代价。使用标准信用数据集和上海市小微企业信用数据集,进行多种算法的对比分析,结果表明,该模型性能优良。  相似文献   

9.
针对不平衡分类问题中各类别规模差异较大导致的较小类别分类精度不高的情况,提出基于先验概率的加权神经网络模型.为了提高较小类别在迭代神经网络中的重要性,以每一类样本的先验概率的倒数作为该类数据的权重,将该权重加人神经网络的目标损失函数中,并基于新构造的目标函数进行网络迭代,加强对少数类别的代价敏感学习,从而提高对小类别样本的识别率.最后利用真实分类数据进行实证分析,与经典神经网络对比,证明模型的有效性与实用性.  相似文献   

10.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

11.
三支决策是近年来提出的一种新的决策理论模型,为了将该模型应用于数据的分类中,提出一种基于三支决策的代价敏感数据分类方法。首先根据三支决策模型,定义一种新形式的误分类代价,并提出相应的最小化误分类代价特征选择算法,然后在该特征选择算法的基础上,提出三支决策模型的代价敏感数据分类算法,该算法将数据分类结果分成三种情形,分别为标记特定类别、不标记特定类别和暂不标记。最后通过仿真实验证明了文中所提出的算法具有更好的代价敏感分类效果。  相似文献   

12.
基于软件大数据的自动化缺陷检测模型已成为缺陷发现的重要工具.针对软件大数据中,被准确标定的缺陷样本稀少,且漏标、误标率高,导致现有机器学习数据平衡优化方法易使噪声加剧、分类边界模糊等问题,提出一种稳健边界强化GMM-SMOTE软件缺陷检测方法.该方法利用高斯混合聚类将软件集合划分为多簇,基于簇内类别比进行可靠样本筛选并且通过后验概率实现边界识别,用以指导完成加权数据平衡,最后利用平衡优化数据构建软件缺陷检测模型.在NASA多个公开数据集上的实验结果表明,GMM-SMOTE可实现噪声抑制、边界强化的数据平衡,有效提高了软件缺陷识别效果,实际应用价值大.   相似文献   

13.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

14.
提出一种区分不同类别误分代价的支持向量杌模型,建立了拉格朗日方程,利用KKT条件推导出其对偶形式.该模型能够让用户标记不同类别样本的重要性,并根据重要性程度设定不同的误分代价,使重要类别的样本尽量减少被误分的可能性,以满足特定任务的需求.实验结果表明,该模型可以很好地完成特定任务的分类.  相似文献   

15.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

16.
针对样本集中的类不平衡性和样本标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机.不确定性采样通过支持向量数据描述评价未标注样本的不确定性,对不确定性高的未标注样本进行标注,同时利用自训练方法训练代价敏感支持向量,代价敏感支持向量机利用代价参数和核参数对未标注样本进行预测.实验结果表明:该算法能有效地降低平均期望误分类代价,减少样本集中样本需要标注次数.  相似文献   

17.
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高.  相似文献   

18.
针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以LightGBM为基学习器改进的Bagging集成电动汽车故障预测模型:在Bagging集成学习中使用Borderline_SMOTE方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC值,其中AUC值达到0.898 4,故障样本的查全率为0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。  相似文献   

19.
传统分类算法隐含的假设(每个样本的误差都具有相同的代价,且接受每个样本的分类结果)并不适用于医疗诊断、故障诊断、欺诈检测等领域的实际需求。在定义拒识代价的基础上,本文提出一种嵌入非对称误分类代价和非对称拒识代价的二元分类算法(CSVM-CM C2RC),包括以下4个步骤:学习代价敏感支持向量机、估计每个样本的后验概率、计算每个样本的分类可靠性、确定每类样本的最优拒识阈值。基于标准数据集的试验研究表明,CSVM-CM C2RC能有效地降低误分类率和平均代价,提高分类结果的可靠性。  相似文献   

20.
针对入侵检测的代价敏感主动学习算法   总被引:3,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号