首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在不平衡数据分类问题中,为了更注重学习原始样本的概率密度分布,提出基于梯度惩罚生成对抗网络的过采样算法(OGPG)。该算法首先引入生成对抗网络(GAN),有效地学习原始数据的概率分布;其次,采用梯度惩罚对判别器输入项的梯度二范数进行约束,降低了GAN易出现的过拟合和梯度消失,合理地生成新样本。实验部分,在14个公开数据集上运用k近邻和决策树分类器对比其他过采样算法,在评价指标上均有显著提升,并利用Wilcoxon符号秩检验验证了该算法与对比算法在统计学上的差异。结果表明该算法具有良好的有效性和通用性。  相似文献   

2.
针对大量有标签样本的数据驱动模型方法存在数据分布不完备问题,结合实际环境中通信信号样本差异大的特点,提出一种对抗域适应迁移算法.通过类判别器和域判别器对抗训练,使特征提取器能够提取到既具有类差异性又具有域不变性的特征.以无监督学习方式对目标域信号进行分类,以提升调制识别算法在实际环境中拟合存在分布差异数据集的自适应能力.对实际信号样本集中调制方式相近的9类调制信号在不同信噪比条件下进行测试,域适应迁移方法通过对抗训练有标签高信噪比的源域样本和无标签低信噪比的目标域样本,结果发现该算法的平均识别准确率较以往直接训练的平均识别准确率大幅提升.  相似文献   

3.
概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-MS-CDC将k-means聚类和局部分类精度算法结合,从分类器池中挑选出最优源领域分类器;第二,将最优源领域分类器与目标领域分类器加权集成,进而对样本分类;第三,根据分类样本的真实标签分别计算各分类器的损失,并对目标领域和源领域的分类器权重进行更新;第四,再利用该分类样本对目标领域分类器、最优源领域分类器进行更新;最后,完成分类器池的更新。在公开数据集上的实验结果表明,LA-MS-CDC能够有效地将源领域知识迁移到目标领域,与现有方法相比,其分类效果具有显著性提升。算法代码可在https://gitee.com/ymw12345/LAMSCDC上获取。  相似文献   

4.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

5.
Boosting是机器学习领域中重要的集成学习方法,以AdaBoost为代表的Boosting算法通过在组合弱学习器时不断加强对错分类样本的关注以构建性能优异的强学习器,而该训练机制对噪声点的无差别对待易引发学习器对噪声过拟合,从而削弱算法的稳健性.针对该问题,提出结合加权KNN和自适应牛顿法的稳健Boosting方法.该方法首先通过加权KNN估计样本的噪声先验概率,然后使用噪声先验概率修正Logit损失构建一种新的损失函数,最后采用自适应牛顿法进行损失函数的优化求解.提出方法引导分类器在给予错分类样本更高权重的同时,对噪声先验概率大的样本给予相应的惩罚,使噪声样本的权重得到有效的缩减.结果表明,与其他稳健Boosting方法对比,在不同噪声水平下以及真实的医疗数据集的不同评价指标下,该方法表现出更好的稳健性,具有明显的应用价值.   相似文献   

6.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

7.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

8.
为了有效解决类间相似度高、类内差异化大、数据类别不平衡的皮肤病变识别,提出了基于改进AlexNet的可变形卷积网络皮肤病变识别算法. 构建改进的AlexNet可变形卷积网络模型,增加采样偏移量,使不同位置的卷积核采样点可根据图像内容自适应变化,自动调整不同尺度或感受野,提取比标准卷积更精细的特征. 使用交叉熵损失函数和焦点损失函数的加权损失函数,削弱易分类样本在训练中所占的权重,使模型专注于相似度高、易错分的样本,解决样本比例不平衡的问题,优化模型的识别率. 在HAM10000数据集上进行仿真实验,主客观的实验结果表明, 提出的方法在7种皮肤病变上的识别优于现有方法,具有更高的准确性、特异性和鲁棒性.   相似文献   

9.
现有的诗词生成方法忽略了风格的重要性。另外,由于宋词大部分词牌词句较多,逐句生成宋词的过程中容易产生上下文缺乏连贯性的现象,在上下文连贯性方面仍存在提升空间。针对这两个问题,在编码解码的文本生成框架基础上,引入自注意力机制的句子表示算法计算多注意力权重矩阵,用于提取词句的多种重要语义特征,让模型更多地关注上文的显著信息来提高上下文连贯性。引入条件变分自编码器(CVAE)将每条宋词数据转化为隐空间中不同风格特征的高维高斯分布,从各自的分布中采样隐变量来控制宋词的风格。由于自构建的宋词语料库缺少完整风格分类标签,使用具有风格标签的宋词微调BERT模型,将其作为风格分类器标注全部的宋词数据。在上述关键技术的基础上实现了宋词生成模型,生成上下文连贯的婉约词以及豪放词。通过与其他4种基准方法进行对比实验,结果表明引入自注意力机制的句子表示算法和条件变分自编码器,在上下文连贯性和风格控制方面有一定的提升。  相似文献   

10.
压缩感知是研究数据采样压缩与重构的信号处理新理论,近年来研究人员将深度学习运用到图像压缩感知算法中,显著提高了图像重构质量.然而,图像信息常与隐私关联,高质量的重构图像在方便人们观赏的同时,带来了隐私保护的问题.本文基于深度学习理论,提出一种对抗的图像压缩感知方法.该方法将压缩理论和对抗样本技术统一于同一个压缩感知算法,通过设计损失函数,联合重构误差和分类误差来训练压缩感知深度神经网络,使得压缩感知重构样本同时也是一个对抗样本.因此,重构图像在保证重构质量的同时,也能对抗图像分类算法,降低其识别率,达到保护图像隐私的效果.在Cifar-10和MNIST图像集上进行的实验结果表明,和已有的压缩感知方法相比,我们提出的对抗压缩感知方法以损失仅10%的图像重构质量为代价,使得图像分类精度下降了74%,获得了很好的对抗性能.  相似文献   

11.
在多源域迁移学习和多视角迁移学习的基础上,对基于多源域多视角的迁移学习算法进行了改进。该算法对分类错误率高的分类器不是仅仅强制设置成最大阈值,而是进行取反以获得更高的利用价值。在源域更新过程中,考虑TrAdaBoost的源域权重下降过快问题,加入动态因子,改变了源域权重收敛过快导致的权重熵过分转移到目标域的问题。实验结果表明,该算法在识别方面具有一定优势。  相似文献   

12.
针对有色噪声中的语音增强问题,通过引入中国餐馆过程混合模型(Chinese Restaurant Process Mixture Model,CRPMM),其潜变量满足中国餐馆过程,能够较方便地获得马尔科夫链式样本的展开.建立了参变量与潜变量基于块采样的后验更新形式,结合卡尔曼滤波技术,能够在分布空间上更精确地逼近噪声的后验分布.仿真算例及实际语音信号增强算例表明,较之传统的参数化卡尔曼滤波算法及变分贝叶斯滤波算法,基于数据驱动的无穷维的块采样技术能够更好地适应新模态,并取得较好的语音增强效果.  相似文献   

13.
针对滚动轴承目标域数据中额外故障状态样本影响其故障诊断精度的问题,提出了采用深度迁移学习与自适应加权的滚动轴承故障诊断方法。建立特征提取模块,利用深度卷积神经网络将轴承样本映射到高维特征空间;利用迁移学习思想设计加权领域鉴别器,对样本进行自适应加权,并通过在特征空间的对抗训练,增大目标域与源域共有健康状态样本的领域相似性,抑制目标域额外故障状态样本与源域样本的领域相似性增强;依据样本权重,度量目标域与源域样本的相似性,设定阈值将目标域额外故障状态样本标记为未知故障;将源域故障诊断知识迁移到目标域共有健康状态样本的故障识别中。利用齿轮箱轴承数据、凯斯西储大学滚动轴承数据和机车轮对轴承数据对提出的方法进行验证,结果表明:所提方法在3个数据集上均达到89%以上的诊断精度,而对比方法的诊断精度均低于80%。所提方法能够克服额外故障状态样本的影响,有效实现滚动轴承故障诊断。  相似文献   

14.
包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE-GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度.  相似文献   

15.
提出了一种自适应代价优化算法ACO,利用"登山式"方法查找最适合重采样数据子集的最优误分类代价值用于建立基分类器,克服了固定式误分类代价不尽科学和客观的缺点,利用重采样技术实现了数据集样本不足时的分类器训练.通过"投票"方式对原始数据集中的实例重新标记类标,学习得到一个适应于类分布不均衡数据集的自适应的集成分类器.实验证明,用自适应代价优化算法实现的分类器在类分布不均衡的数据集上的分类性能明显优于CSC,MetaCost和naive Bayes等建立的分类器.  相似文献   

16.
针对雷达跟踪系统中的多目标运动情况,以及目标轨迹交叉重叠导致的目标丢失或跟踪错误等问题,将多目标联合状态下的加权重采样思想引入到标准粒子滤波算法中.对基本粒子滤波算法进行优化,使用离散随机变量模拟目标后验概率,存在多个目标时引入联合状态概念,用关联函数把多个目标的状态变量和观测变量表示出来,把联合状态下的采样数据加入跟踪粒子的权值更新过程,使得粒子能够根据目标间的状态变化准确预测各个目标的后验分布,从而更新目标运动估计值,避免下一时刻粒子采样分布错误.联合加权重采样优化后的粒子能够准确跟踪目标运动,粒子预测和更新也不受目标交叉运动影响,克服跟踪不稳定或跟踪误差较大的问题.仿真结果表明,改进的粒子滤波算法能够达到正确跟踪多个目标的效果,并且目标轨迹交叉时仍然能够保持较高的跟踪精确度.  相似文献   

17.
针对大数据分类中的不平衡问题,本文提出一种基于边界条件生成式对抗网络(Boundary Conditional Generative Adversarial Networks,BCGAN)的不平衡大数据模糊分类算法,通过在多数类数据和少数类数据的决策边界附近引入一个边界少数类到过样本,生成更合适的少数类数据来提高分类性能.将处理过的平衡数据转换成概率索引表,数据和属性分别以行和列的形式呈现,计算每个数据属性中存在的唯一符号的隶属度,然后设计相关模糊朴素贝叶斯(Correlative Fuzzy Naive Bayes,CFNB)分类器进行数据分类.本文给出MapReduce框架下大数据模糊分类的并行实现.实验结果表明:所提基于BCGAN的不平衡大数据模糊分类准确度优于其他现有方法,说明该方法具有可行性和有效性.  相似文献   

18.
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC (Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路.  相似文献   

19.
在缺乏足够的扶梯电机轴承故障数据的情况下,针对扶梯在频繁变载变速的运行状态中轴承故障特征不稳定的问题,提出了Stockwell(S)变换结合子域适应的扶梯电机轴承迁移诊断方法。首先,针对扶梯电机轴承的故障特点,采用S变换结合双线性插值算法生成振动信号时频图。该时频图能有效反映轴承故障特征,并与后续的生成/与特征提取网络输入要求相适应。其次,在基于深度残差神经网络ResNet-50的特征提取网络层的输出端引入局部最大均值差异(LMMD),将故障样本的类别置信度作为映射后的权重引入最大均值差异(MMD),在对齐源域和目标域全局分布的同时,对齐同类别样本所属的子域的分布,同时拓展可迁移学习的范围。然后,构建网络的最小化LMMD和交叉熵损失函数,采用小批量梯度下降法训练网络。从而可通过细化不同故障类别间特征差异实现故障子域自适应,并克服迁移诊断精度低的问题。最后,基于两个公开的轴承故障数据集和少量扶梯电机轴承故障数据构建S变换后的时频数据集,并进行迁移诊断实验验证。结果表明,本方法对扶梯轴承的两种源域到目标域的迁移诊断平均准确率分别达到99.1%和95.49%,识别精度和鲁棒性明显优于5种常用...  相似文献   

20.
当训练数据和测试数据来自不同的领域或任务以至于训练数据和测试数据的分布不相同时,需要进行知识的迁移.本文提出一种基于实例KMM匹配的参数迁移学习方法.利用KMM算法估计每个源领域实例的权重,再利用得到的权重,把这些实例应用到基于参数的迁移学习方法中.把该迁移学习算法应用到无线网络定位问题中时,该方法的定位准确度要高于单...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号