首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

3.
在不平衡数据分类问题中,为了更注重学习原始样本的概率密度分布,提出基于梯度惩罚生成对抗网络的过采样算法(OGPG)。该算法首先引入生成对抗网络(GAN),有效地学习原始数据的概率分布;其次,采用梯度惩罚对判别器输入项的梯度二范数进行约束,降低了GAN易出现的过拟合和梯度消失,合理地生成新样本。实验部分,在14个公开数据集上运用k近邻和决策树分类器对比其他过采样算法,在评价指标上均有显著提升,并利用Wilcoxon符号秩检验验证了该算法与对比算法在统计学上的差异。结果表明该算法具有良好的有效性和通用性。  相似文献   

4.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

5.
在金融工程的分类任务中,由于金融数据噪音大、信息比率低的特点,传统深度算法的有监督训练模式往往过于依赖数据本身的绝对标签从而进一步放大了噪音对最终结果的影响.生成对抗网络(generative adversarial network, GAN)能够利用深度网络挖取数据特征,增强数据,减少噪音影响,应用于金融序列分析时效果优异.这里将GAN模型用于高频交易,具体做法为:将数据按波动性分为有标签数据与无标签数据两类,利用生成网络G与判别网络D互相对抗训练来深度学习这些数据的内在特性,训练好后的D网络根据有标签数据信息亦可对真实数据进行类别判别,得到涨跌分类模型,进而给出量化交易策略.基于期货主力合约数据进行了实证分析,结果表明,基于GAN训练下的LSTM模型显著优于有监督训练下的LSTM等深度模型和Logistics回归模型.  相似文献   

6.
本文应用SMOTE算法以消除邮件数据的不平衡性,并应用随机森林集成学习算法进行垃圾邮件识别.实验结果表明提出的方法在多个指标性能表现良好.  相似文献   

7.
针对假币的特征未知以及样本数量不平衡的局限性问题,提出基于半监督辅助分类生成对抗网络的纸币红外特征鉴伪算法.辅助分类生成对抗模型可以扩充样本的数据集,经过半监督的方式训练得到分类器进行分类,实现对纸币红外特征的鉴伪.实验结果表明,该算法能提高假币鉴伪的准确率以及泛化能力.  相似文献   

8.
使用生成对抗网络(GAN)扩充宫颈癌病理图像的数据集以提高计算机辅助诊断的准确率.首先,使用GAN进行细胞质部分图像生成;其次,使用两次k-means聚类对生成图像进行筛选;最后,使用Inception-V3模型对数据集进行分类训练.结果表明,在测试集相同的情况下,该方法可以将总体分类准确率提升约2.5%,尤其对低分化宫颈癌病理图像有显著效果.通过GAN解决了组织病理学图像无方向性、内容复杂、前景目标规则性差等问题,证明了该方法的有效性及发展潜力.  相似文献   

9.
人脸姿态重建对于解决由于人脸姿态导致的人脸识别率降低的问题有重要意义,由于自遮挡,缺少大部分的人脸特征,重建正面人脸存在很大困难.近年来运用生成对抗网络的图像生成方法得到学界深入的研究,受生成对抗网络在人脸肤色,头发等属性变换等方面研究工作的启发,将人脸偏转角度作为人脸的一种全局姿态属性进行基于生成对抗机制的互换训练,...  相似文献   

10.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。  相似文献   

11.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

12.
针对非均衡数据的情形,基于条件生成对抗网络(conditional generative adversarial networks,CGAN),利用梯度提升树研究了聚焦损失的CGAN的集成分类方法.该方法首先通过CGAN降低不均衡率,通过聚焦损失的权值均衡结合GBDT算法,适当增加对少数类样本的关注度进而进一步提升分类...  相似文献   

13.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

14.
半导体质量检测数据具有的“相关性、冗余性、不平衡性”等特点,导致传统的分类算法效率较低,为此,提出一种基于特征提取及数据扩充的GA-LightGBM(genetic algorithm-light gradient boosting machine)质量检测方法。通过结合主成分分析(principal component analysis,PCA)、合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)、遗传算法和LightGBM这4种方法,实现对产品质量的有效识别。实验结果表明,相较于传统分类算法,提出的方法可以有效提升质量检测的效率。  相似文献   

15.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

16.
针对传统方法在不平衡数据分类时易导致生成假样本数量多或数据丢失等问题,提出了一种基于DBSCAN聚类分解和过采样的随机森林不平衡数据分类算法.首先,将基于密度的DBSCAN聚类分解算法应用于不平衡数据集的多数类,在没有数据丢失的情况下降低了多数类样本的优势;其次,通过Borderline-SMOTE算法对少数类进行过采样,增加了少数类样本的数量,从而得到更加平衡的数据集,有效地解决了过采样时生成过多假样本而导致过拟合的问题,同时避免了欠采样方法造成数据丢失的问题;最后,在聚类分解和过采样算法的前提下,验证了随机森林比SVM、Adaboost、Bagging、XGBoost有更好的效果.在KEEL公用数据集上与其他流行算法进行实验比较,结果显示该算法有效地提高了不平衡数据的分类性能.  相似文献   

17.
武洋名  宗学军  何戡 《科学技术与工程》2022,22(34):15195-15202
随着工业4.0时代的到来,工控安全事件频发,工控信息安全问题已经备受关注。由于工控环境较为复杂,导致传统机器学习方法在分类大量工控数据时存在收敛速度慢、泛化性较差以及数据分布不均衡等问题。为了解决此类问题,本研究采用一种基于WGAN-GP数据增强并运用深度信念网络和极限学习机相结合的深度学习入侵检测方法,本方法基于一种梯度惩罚的生成对抗网络数据增强并将深度信念网络(deep belief network,DBN)自动提取特征的能力与极限学习机(extreme learning machine, ELM)快速学习的能力相结合。采用加拿大网络安全研究所公布的 CICIDS2017 数据集对所提出的算法进行测试,经过对比实验证明了该方法精度更高,收敛速度更快。为了验证所提出算法在工控环境中的适用性,本研究同时采用密西西比州立大学天然气管道数据集进行验证,证明了该算法在工业环境中具有高精度、误报率低等优点,为工业入侵检测的研究提供了一种新的研究思路。  相似文献   

18.
A genetic algorithm to solve the set covering problem proposed in the literature had some improvements which gave better solutions, i.e., better chromosomes in the first starting population, taking full account of domain specific knowledge with sound programming skill. We have further investigated the input data dependency of their genetic algorithm, i.e., the dependency on costs and density. We have found that for input problem data sets with densities greater than or equal to 3%, our genetic algorithm is still practical both in computing time and approximation ratio.  相似文献   

19.
由于粗糙集理论对不确定性的描述是相对客观的,且在无需先验信息的情况下提供了严格地处理数据分类问题的数学方法,结合遥感数据的不确定性,就能对遥感数据进行分类处理.文章通过对遥感数据的处理,经过数据离散化等一系列数据处理后得到约简属性,再根据Fisher线性判别对遥感数据进行监督分类,得到分类结果.可以得出粗糙集理论应用于...  相似文献   

20.
基于增量式遗传算法的粗糙集分类规则挖掘   总被引:8,自引:0,他引:8  
从规则获取和优化两个方面研究了基于遗传算法(GA)的增量式粗糙集分类规则挖掘方法.通过研究决策表和决策规则系数,建立了基于粗糙集表示和度量的知识理论,将GA和粗糙集分类规则挖掘算法相结合,在保持原有知识完备的前提下,利用GA对以增量形式获得的分类规则进行优化,获取最优分类规则.试验结果表明,执行增量式GA所需时间较执行一般GA所需时间要少,可有效完成分类规则优化的任务,同时还可提高分类的精度,使分类结果具有更好的可理解性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号