首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对数据不平衡导致的信用风险识别精度低的问题,利用随机欠采样算法对数据集平衡处理后,采用Logistic回归模型以及随机森林、决策树、XGboost和支持向量机等分类算法分别建立模型并进行预测。实证结果表明,随机欠采样算法可以将信用卡欺诈风险的预测精度从低于75%提升至85%以上,且G-mean和AUC等衡量非平衡数据分类性能的指标均有明显提高,该算法能够有效缓解数据不平衡导致的风险预测性能低下的问题。  相似文献   

2.
针对常用的入侵检测算法的收敛速度慢和误报率高的问题,本文提出一种基于栈式稀疏自编码器(SSAE)和概率神经网络(PNN)的入侵检测方法.首先,使用栈式稀疏自编码器对数据进行特征提取,获得低维、深层次的特征集,从而降低检测结果的误报率;然后,使用收敛速度快的概率神经网络对特征集分类,减少了训练模型的时间.本文使用NSL-KDD数据集对模型进行验证,实验结果表明,与其他入侵检测算法相比,SSAE-PNN模型取得了更优秀的检测效果.  相似文献   

3.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

4.
为了降低在线交易欺诈数据的不平衡性对欺诈检测效果的影响,提出了一种基于特征优化生成对抗网络的在线交易反欺诈方法。该方法建立了WGAN网络包括生成模型和判别模型,对数据进行Key特征选取,在数据生成过程中进行Gumbel-softmax技巧采样输出,优化生成数据质量和提高训练稳定性;交替训练判别模型和生成模型直至模型收敛;接着将收敛的生成模型作为样本生成器生成少数类样本对原始数据进行平衡处理;利用平衡处理后的数据训练分类模型并进行模型评估。通过实验证明,该方法生成数据的效果优于SMOTE及其变种方法。  相似文献   

5.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

6.
为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。  相似文献   

7.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

8.
不平衡数据集广泛存在,对其的有效识别往往是分类的重点,但传统的支持向量机在不平衡数据集上的分类效果不佳.本文提出将数据采样方法与SVM结合,先对原始数据中的少类样本进行SMOTE采样,再使用SVM进行分类.人工数据集和UCI数据集的实验均表明,使用SMOTE采样以后,SVM的分类性能得到了提升.  相似文献   

9.
针对软件缺陷预测数据中的数据不平衡、预测精度低以及特征维度高的问题,提出了一种RUS-RSMOTE-PCA-Vote的软件缺陷不平衡数据分类方法。首先通过随机欠采样来减少无缺陷样本的数量;在此基础上进行SMOTE过采样,在过采样中综合总体样本的分布状况引入影响因素posFac指导新样本的合成;对经过RUS-RSMOTE混合采样处理后的数据集进行PCA降维,最后应用Vote组合K最近邻、决策树、支持向量机构造集成分类器。在NASA数据集上的实验结果表明,与现有不平衡数据分类方法相比,所提方法在F-value值、G-mean值和AUC值上更优,有效地改善了软件缺陷预测数据集的分类性能。  相似文献   

10.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

11.
针对高维数据无监督异常检测难以重构异常样本,无法保留低维空间信息的问题,提出一种深度变分自编码高斯混合模型(deep variational autoencoding gaussian mixture model,DVAGMM)。该模型利用深度变分自编码器为每个输入样本生成低维数据和重构误差,并将这些数据输入高斯混合模型。为更好地学习到原始样本的低维特征,同时避免自编码器自身的局部优化问题,减少重构误差,模型采用联合优化深度变分自编码器和高斯混合模型参数的方法,并利用单独的估计网络促进混合模型的参数学习。实验结果表明,该模型在几个基准数据集上的检测准确率和效果都比其他传统模型更高,以F1值作为综合评价指标,模型的综合分数比第二名高出大约4%。  相似文献   

12.
提出基于支持向量机的不平衡样本集分类算法,以支持向量机为基础,利用重采样技术及特征子空间等相关理论,通过分层抽样方法和重采样技术,分别对不平衡数据集的样本底层特征和样本数量进行平衡,在不同数据集上进行实验,实验表明该方法能有效提高不平衡数据分类的准确度.  相似文献   

13.
针对个人信贷风险评估中存在的类别不平衡问题,为了提升信贷违约客户的识别能力,提出基于欠采样改进的集成模型.该模型从"数据"层面进行批量欠采样处理,从"算法"层面对现有的集成模型进行再次集成.在UCI台湾信用卡信贷数据集上,结合模型整体效果的测度AUC值、精度方面的测度F1值和区分度指标KS值进行评估.结果表明,基于欠采...  相似文献   

14.
基于变分自编码器的协同推荐算法可以帮助解决推荐算法中的稀疏性问题,但是由于变分自编码器模型先验是单一的高斯分布,使得表达趋向简单和平均,存在拟合不足的问题.高斯混合变分自编码器模型拥有更加复杂的先验,相对于原本的变分自编码器模型,它对于非线性的任务有着更强的适应性和效果,已被广泛应用于无监督聚类和半监督学习.受此启发,本文研究基于高斯混合变分自编码器模型的协同过滤算法.本文基于Cornac推荐系统比较框架设计实验,将高斯混合变分自编码器改进后用于协同推荐任务中,利用生成模型重新生成的用户-物品矩阵进行推荐.在推理模型和生成模型中分别用一层隐藏层提取深层特征增加模型鲁棒性,并且使用提前停止的训练策略以减少过拟合.本文在多组公开数据集上进行实验,与其他推荐算法在NDCG和召回率指标上进行对比.实验证明,改进的基于高斯混合变分自编码器模型的协同过滤算法在推荐任务中表现优异.  相似文献   

15.
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。  相似文献   

16.
针对现有的基于机器学习的入侵检测系统对类不平衡数据检测准确率低的问题,提出一种基于条件Wasserstein生成对抗网络(CWGAN)和深度神经网络(DNN)的入侵检测(CWGAN-DNN).CWGAN-DN N通过生成样本来改善数据集的类不平衡问题,提升对少数类和未知类的检测效率.首先,通过变分高斯混合模型(VGM)对原始数据中的连续特征进行处理,将连续特征的高斯混合分布进行分解;然后利用CWGAN学习预处理后数据的分布并生成新的少数类数据样本、平衡训练数据集;最后,利用平衡训练集对DNN进行训练,将训练得到的DNN用于入侵检测.在NSL-KDD数据集上进行的实验结果表明:利用CWGAN生成的数据进行训练,DNN的分类准确率和F1分数提升了5%,AUC下降了2%;与其他类均衡方法相比,CWGAN-DNN的准确率至少提升了3%、F1分数和AUC提升了1%.  相似文献   

17.
当前攻击者广泛采用域名生成算法(DGA)生成大量的随机域名来躲避检测.针对现有的DGA域名检测模型均是在已经公开的数据集上进行训练构建,无法对未知恶意域名进行有效检测的情况,利用真实域名数据训练自编码器,并将自编码器和生成对抗网络相结合,构造了一种新的DGA域名生成模型.实验表明,该模型产生的序列与Alexa域名在长度和字符分布等特征都很接近,而且能够有效降低基于长短期记忆网络的DGA域名分类器的性能.这些生成序列很好地丰富了恶意域名数据集,对其进一步利用,显著提升了现有DGA域名检测器的性能.  相似文献   

18.
为有效提取复杂且冗余的网络流量数据特征并进行更好地特征表达,提出了一种基于自编码器和对比学习的入侵检测方法。通过自编码器可捕捉网络数据流量特征间的非线性相关性,实现对数据的降维处理和特征提取,同时,采用对比学习对网络流量数据进行表征学习,通过优化对比学习损失函数进行端到端学习。在两个基准数据集NSL-KDD和UNSW-NB15进行分类试验。结果表明,相对于其他深度学习的入侵检测方法,该模型有效地提高了识别准确率和精确率。  相似文献   

19.
针对视频中包含的异常事件数量稀少,信息密集的特征容易被遗漏等问题,本文提出一种双交叉注意力自编码器的视频异常事件检测方法.首先预处理视频集,提取视频帧中表观和运动特征,然后设计双交叉注意力模块融入自编码器中,使特征图在自编码器中能够更好地关联全局特征.其次将提取后的特征放入各自的自编码器中学习正常行为,使含有正常事件的视频帧能被模型重构,含有异常事件的视频帧则无法被重构.最后通过检测模型得到各个视频帧的重构误差从而进行异常事件判定.该方法可以以局部特征关联全局特征的方式有效提高视频异常事件检测的准确率,通过在多个公开数据集中进行实验验证,证明该方法优于其他同类方法.  相似文献   

20.
针对当前无监督学习的入侵检测算法准确度低、误报率高以及有监督学习算法所需训练样本标记成本高的问题,提出一种基于对抗性自编码器的入侵检测算法.这是一种半监督学习算法,仅需要训练数据集中少量标记数据进行训练,并在训练数据集中支持未标记数据,从而提高性能.首先,自编码器通过提取重要特征作为潜在变量来降低输入数据的维数;其次,利用生成对抗网络使自编码器的潜在变量遵循任意分布以进行正则化;最后,利用标记数据的交叉熵损失来实现半监督学习的分类.实验结果表明:相较于其他算法,本文所提算法对少量标记的数据集检测具有一定的优势,在实现高准确度、低误报率的同时,降低对标记数据的需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号