首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
针对嵌入式和移动设备的计算和存储资源受限, 紧凑型网络优化易收敛至较差局部最优解的问题, 提出一个特征图自适应知识蒸馏模型, 其由特征图适配器和特征图自适应知识蒸馏策略构成. 首先, 特征图适配器通过异构卷积与视觉特征表达模块的堆叠实现特征图尺寸匹配、 教师学生网络特征同步变换及自适应语义信息匹配. 其次, 特征图自适应知识蒸馏策略将适配器嵌入教师网络对其进行重构, 并在训练过程中实现适合用于学生网络隐藏层监督特征的自适应搜索; 利用适配器前部输出提示学生网络前部训练, 实现教师到学生网络的知识迁移, 并在学习率约束条件下进一步优化. 最后, 在图像分类任务数据集cifar-10上进行实验验证, 结果表明, 特征图自适应知识蒸馏模型分类正确率提高0.6%, 推断损失降低65%, 并将收敛至78.2%正确率的时间减少至未迁移时的5.6%.  相似文献   

2.
针对关系抽取模型规模越来越大、耗时越来越长的问题,提出一种知识筛选机制,利用筛选出的正向软标签构造轻量级关系抽取模型.首先,利用知识蒸馏提取出知识并将其存储在软标签中,为避免知识蒸馏中教师与学生间差距大导致的知识难吸收问题,使用教师助手知识蒸馏模式;其次,使用标签的余弦相似度筛选出正向软标签,在每步蒸馏中都动态赋予正向软标签更高的权重,以此削弱知识传递中错误标签导致的影响.在数据集SemEval-2010 Task 8上的实验结果表明,该模型不仅能完成轻量化关系抽取任务,还能提升抽取精度.  相似文献   

3.
因能有效地压缩卷积神经网络模型,知识蒸馏在深度学习领域备受关注。然而,经典知识蒸馏算法在进行知识迁移时,只利用了单个样本的信息,忽略了样本间关系的重要性,算法性能欠佳。为了提高知识蒸馏算法知识迁移的效率和性能,文中提出了一种基于特征空间嵌入的对比知识蒸馏(FSECD)算法。该算法采用批次内构建策略,将学生模型的输出特征嵌入到教师模型特征空间中,使得每个学生模型的输出特征和教师模型输出的N个特征构成N个对比对。每个对比对中,教师模型的输出特征是已优化、固定的,学生模型的输出特征是待优化、可调优的。在训练过程中,FSECD缩小正对比对的距离并扩大负对比对的距离,使得学生模型可感知并学习教师模型输出特征的样本间关系,进而实现教师模型知识向学生模型的迁移。在CIFAR-100和ImageNet数据集上对不同师生网络架构进行的实验结果表明,与其他主流蒸馏算法相比,FSECD算法在不需要额外的网络结构和数据的情况下,显著提升了性能,进一步证明了样本间关系在知识蒸馏中的重要性。  相似文献   

4.
基于深度学习的网络入侵检测模型面临模型结构复杂、部署效率低及流量数据类别不平衡的问题.针对这些问题,提出了1种结合知识蒸馏和类别权重焦点损失的网络入侵检测方法.该方法以精度高、参数量较多的入侵检测模型作为教师模型,与小型学生模型生成蒸馏损失;引入增加类别权重的焦点损失函数作为学生损失;结合蒸馏损失与学生损失生成总的损失函数优化学生模型.实验结果表明,该方法性能相较于非蒸馏模型在各项指标上均有一定提升.  相似文献   

5.
知识蒸馏能提高神经网络的泛化能力,可解决遥感图像场景分类时标注数据不足的问题。遥感图像存在的类间高相似性会导致中间知识特征丢失,针对该问题,本文提出一种基于自蒸馏级联注意力机制的特征提取方法(SDCASA)。首先构造权值共享的教师、学生网络;然后使用级联注意力模块精细化深层教师网络所提取到的特征,同时保留被浅层神经网络过滤的中间边缘信息;再利用精细化之后的特征指导学生网络学习;最后在下游训练一个线性分类器完成特征分类。在3个公开数据集AID、MLRSNet、EuroSAT上使用20%和50%的样本训练,分类准确率分别达到85.17%、90.10%、 91.13%和85.50%、92.13%、91.17%。此方法能有效提高遥感图像场景分类准确率,性能优于主流自监督图像分类方法 SimSiam、SwAV、MoCov2、Deepcluster,具有良好的应用价值。  相似文献   

6.
在人脸识别系统中,深度学习由于强大的表征能力被广泛应用,但模型推理的高计算复杂度和特征表示的高维度分别降低了特征提取和特征检索的效率,阻碍了人脸识别系统的实际部署.为了克服这两个问题,本文提出一种基于深度特征蒸馏的人脸识别方法,该方法通过多任务学习实现大深度模型知识与领域相关数据信息的蒸馏,从而统一地压缩深度网络参数及特征维度.联合特征回归与人脸分类,以预训练的大网络为教师网络,指导小网络训练,将知识迁移得到轻量级的学生网络,实现了高效的特征提取.在LFW人脸识别数据集上进行了实验,学生模型在识别精度相比教师模型下降3.7%的情况下,模型参数压缩到约2×107、特征维度降到128维,相比教师模型分别获得了7.1倍的参数约减、32倍的特征降维及95.1%的推理复杂度下降,表明了方法的有效性和高效性.  相似文献   

7.
针对教师-学生网络存在的超参数温度控制效率低、时间开销大的问题,提出了一种基于自适应温度的小教师网络辅助训练的可解释模型.在原有教师-学生模型结构的基础上,首先,说明超参数温度只与学生模型的训练收敛速度相关;然后,加入小教师模型结构,节约了解释模型的训练时间.在图像分类的验证实验中,解释模型在cifar-100图像数据...  相似文献   

8.
在自动化工业生产环境中高效地完成产品质检是生产过程中的重要任务之一,提出一种基于回顾蒸馏学习的无监督工业品缺陷检测方法(Retro-KD).首先,针对缺陷产生的未知性问题,采用无监督的方式训练蒸馏学习模型,同时,为了充分地利用蒸馏学习中的信息传递机制,利用中间层特征提取模块完善教师网络中的特征架构;其次,提出迭代信息融合模块,回顾地传递中间层信息,指导学生网络拟合正样本特征分布,放大缺陷样本差异性;再引入相似性度量(Structural Similarity,SSIM),增强教师与学生网络在图像空间中的相似度;最后,采用基于梯度变化的缺陷分割方法得到像素级的定位图.在MVTec-AD和Magnetic-Tile两个工业数据集上验证了该方法的有效性,其AUROC(Area under ROC)与ACC(Accuracy)指标分别提升了1.9%与1.3%.  相似文献   

9.
在生物医学文献挖掘领域中,已有的BioBert采用预训练的方式在生物医学命名实体识别(BioNER)任务中表现出优秀的实体识别性能,却存在模型规模过大、速度过慢的缺点。针对BioBert网络模型如何高效压缩问题,该文提出了一种高效生物医学名称实体识别模型,命名为FastBioNER模型。该模型采用动态知识蒸馏方式对BioBert模型进行压缩,首先,通过动态权重函数模拟真实的学习行为,即在模型训练过程中动态调整各部分损失函数的重要程度;其次,采用动态知识蒸馏方式将训练后的BioBert作为教师模型,压缩到一个规模较小的学生模型中;最后,对提出的FastBioNER模型在已公开数据集NCBI疾病、 BC5CDR-chem和BC4CHEMD上进行了实验验证。实验结果表明:提出的FastBioNER模型在3个数据集中获得除BioBert外最高F1值分别为88.63%、 92.82%和92.60%,并分别以损失1.10%、 0.86%、 0.15%的F1值为代价,将BioBert的模型大小压缩了39.26%,同时推理时间缩短了46.17%。  相似文献   

10.
深度神经网络模型在图像识别、语音识别等领域表现出了优异的性能,但高性能的模型对计算资源提出了更高的要求,存在难以部署于边缘设备的问题,对此提出一种基于知识蒸馏的差异性深度集成学习。首先对成员模型进行知识蒸馏,然后使用余弦相似度作为损失函数的正则化项对成员模型进行集成,最后得到训练好的模型。在MNIST(Mixed National Institute of Standards and Technology)和CIFAR10(Canadian Institute for Advanced Research)数据集上的试验结果表明,基于知识蒸馏的差异性深度集成学习在压缩模型的同时将模型的分类准确率提升至83.58%,相较于未经蒸馏的原始模型,分类准确率提高了4%,在压缩模型的同时提高模型的泛化性能。基于知识蒸馏的差异性深度集成学习打破了模型的压缩必然以泛化性能为代价这一认知,为模型集成提供了新的研究思路。  相似文献   

11.
针对声纹识别领域中存在信道失配与对短语音或噪声条件下声纹特征获取不完全的问题,提出一种将传统方法与深度学习相结合,以I-Vector模型作为教师模型对学生模型ResNet进行知识蒸馏。构建基于度量学习的ResNet网络,引入注意力统计池化层,捕获并强调声纹特征的重要信息,提高声纹特征的可区分性。设计联合训练损失函数,将均方根误差(MSE,mean square error)与基于度量学习的损失相结合,降低计算复杂度,增强模型学习能力。最后,利用训练完成的模型进行声纹识别测试,并与多种深度学习方法下的声纹识别模型比较,等错误率(EER,equal error rate)至少降低了8%,等错误率达到了3.229%,表明该模型能够更有效地进行声纹识别。  相似文献   

12.
恶意软件分类是一个多分类任务,旨在提取软件特征来训练模型,以判断恶意软件的类别。现有工作主要集中于利用深度神经网络从恶意软件图像中抽取特征进行分类,对恶意软件的序列特征和分布特征之间的关联性缺乏关注,限制了模型性能。此外,这些现有模型大多具有较高的参数量,往往需要占用较大的计算资源。为此,提出一种基于特征融合与知识蒸馏的恶意软件分类方法。一方面,通过残差网络分别从灰度图和马尔可夫图中抽取恶意软件的序列特征和分布特征,并利用自注意力挖掘不同特征之间的关联性,以提升模型性能。另一方面,通过教师网络向多个学生网络进行知识迁移,并让学生网络互相协作学习,以进一步降低模型规模。在微软和CCF数据集上的实验结果证明,该方法不仅有效提升了模型性能,而且可以降低模型的参数量和计算量。此外,本文通过热力图定位影响分类结果的字节,对分类依据进行解释。  相似文献   

13.
桑雨  李立权  李铁 《科学技术与工程》2024,24(18):7726-7732
针对遥感图像小目标众多、目标检测器参数量大和检测效率低等问题,提出一种改进的YOLOv7-tiny的轻量级遥感图像小目标检测模型。首先,针对原始模型中跨阶段局部空间金字塔池化网络复杂的碎片化操作,提出轻量级的空间金字塔池化结构来减少多余的卷积算子操作;其次,针对颈部网络冗余的模块化连接方式和小目标容易在深层特征丢失空间信息的问题,提出深层语义信息引导的单尺度预测头方法来进行小目标位置信息强化,并进一步减少颈部网络和头部网络的计算成本。在遥感图像数据集上展开实验,结果表明,改进后的模型比原始模型参数量降低49.6%,计算复杂度降低28.5%,推理速度提高73.1%,并优于现阶段其他主流轻量级目标检测器。。  相似文献   

14.
大多数遥感影像数据不可避免地受到云层的污染导致数据的失效。因此,对云进行检测是非常必要的预处理步骤。随着航天技术的飞速发展,更加轻便的卫星被设计出来,为了在这些算力有限的微小卫星上配备遥感影像预处理模型。设计一种高精度、算力要求低的轻量化云与云阴影检测网络模型具有重要意义。针对上述问题,本研究提出一种基于深度可分离卷积的轻量化卷积神经网络模型(Lightweight M-shaped Network,L-MNet),L-MNet网络模型是在M-Net( M-shaped Network)网络模型的基础上引入深度可分离卷积(Depthwise Separable Convolution),设计一种深度可分离卷积模块(DS-Conv Block),以减小算法的复杂度及计算量。实验结果表明,本研究所提方法在保证检测精度的前提下,可以有效减小像素级云检测的模型大小及计算量,有助于实现微小卫星在轨云检测的任务。  相似文献   

15.
在联合作战体系中,数据作为基础性战略资源发挥着重要的底层支撑作用,数据妥善管理和高效利用是推动作战能力整体跃迁和作战样式深度变革的重要动力。为实现不同作战系统间信息的互联互通,提出 一种基于联邦学习的多源异构网络无数据融合方法。从多源数据融合面临的安全性和异构性问题出发,利用条件生成对抗网络提取本地知识和全局分布,集成数据信息;结合局部教师模型-全局模型架构,以无数据知识蒸馏的方式对局部模型知识进行迁移,融合异构网络,细化全局模型,实现不同系统间安全、高质量的信息交互,为智能化指挥信息系统建设提供技术支撑。实验结果表明:该方法在结构化数据和图像数据上具有可行性,整体准确率可达到80%以上。  相似文献   

16.
针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题,将级联CRFs(全连接条件随机场)引入到U-Net深度模型中,提出了一种改进的U-Net模型(U-Net+级联CRFs),以用于遥感影像建筑物自动提取:构建级联CRFs并将其引入到U-Net模型的解码层中,从多层结构中学习边界信息,增强模型对建筑物边界的分割能力...  相似文献   

17.
针对深层DenseNet模型在小型数据集上的过拟合问题,提出了一种改进的轻量化DenseNet模型.首先,优化网络中密集连接块(Dense Block)数量和其内部网络结构;然后,提出一种自适应池化层方法,解决改进网络的特征图分辨率适应问题;最后,加入Skip Layer模块增强密集连接块间特征信息流通.实验结果表明,改进方法能够减少模型的参数量和计算量,有效解决了深层DenseNet的过拟合问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号