首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在工业生产制造过程中,由于生产失误致使产品表面缺陷不仅影响产品质量,同时也会损害企业形象.针对现有方法使用卷积神经网络只具备局部感受野的问题,将Vision Transformer(ViT)作为特征提取器,ViT可以通过位置编码与图像块间的互相运算充分利用图像中各部分间的关联特征.此外,针对现实场景下的缺陷区域是不规则、不连续的,现有的模型也未充分利用图像中通道与空间信息问题,提出了一种基于可变形卷积融合空间通道双注意力机制的方法(deformable convolutional and dual attention flow,简称DCA-Flow).对于不规则的缺陷区域,使用形变建模能力更强的可变形卷积进行特征提取,并利用通道与空间维度的注意力机制对可变形卷积提取的特征进行权重再调节.实验结果表明,所提出的方法能够有效检测各种类别物体中的表面缺陷,在多种物体中的平均AUROC值可达96.4%,相较基线方法最大值提高了1.4%,且具备更好的泛化性.  相似文献   

2.
针对目前MRI脑肿瘤分割中的无监督特征提取方法无法适应脑肿瘤图像的差异性,提出一种基于多模态3D卷积神经网络(CNNs)特征提取的MRI脑肿瘤分割方法。将2D的多模态MRI图像组合成3D原始特征,通过3D-CNNs提取特征,更有利于提取各模态之间的差异信息,去除各模态之间的冗余干扰信息,同时缩小原始特征邻域大小,以适应同一病人不同图像层肿瘤大小的差异变化,进一步提高MRI脑肿瘤的分割精度。实验结果证明,能适应不同病人各模态之间的差异性和多变性,以提高脑肿瘤的分割精度。  相似文献   

3.
基于卷积神经网络的连续语音识别   总被引:3,自引:0,他引:3  
在语音识别中,卷积神经网络( convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络( deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强。  相似文献   

4.
本文针对低截获概率(Low Probability of Intercept, LPI)雷达信号调制类型的识别问题提出了一种基于Swin Transformer神经网络的识别方法. 该方法首先用平滑伪Wigner-Ville分布对信号进行时频变换,将一维时域信号变换为二维时频图像,然后使用Swin Transformer神经网络对图像进行特征提取及调制类型识别. 仿真结果显示,该方法具有较强的抗噪声能力,在低信噪比条件下识别准确率高,且具有较强的小样本适应能力.  相似文献   

5.
手语作为表达信息的一种方式,是聋哑人与外界交流的最主要途径。随着人工智能技术的发展,新型、自然、便捷的人机交互方式已经成为当今各行业交互方式的新趋势。传统手语识别方法普遍存在背景干扰严重、特征提取不完整及识别准确率低的缺点。针对以上问题进行研究,提出基于彩色-深度(RGB-D)图像的手语识别算法。在静态孤立词手语识别的基础上测试。实验对比结果表明,基于RGB-D的方法能得到比传统手语识别算法更好地性能;利用深度信息处理图像,有效地去除了场景中光照、背景的干扰,同时结合肤色信息去除非手形部分;采用概率神经网络(PNN)手语分类器对孤立词的识别准确率超过90%,取得了较高的识别率。  相似文献   

6.
针对原始C3D卷积神经网络参数量庞大,以及在压缩网络参数的同时进一步提高视频数据集中人体行为的识别率的问题,提出一种改进型C3D卷积神经网络模型。首先,采用全局平均池化和卷积分类操作取代全连接层,形成全卷积网络形式,之后在模型中分别引入卷积核为(3×3×3)和(1×1×1)的三维卷积层,并在此基础上采用卷积核为(3×1×7)和(3×7×1)的三维卷积层对多个(3×3×3)卷积层合并。最后,将所提方法在数据集UCF101和HMDB51上进行训练测试,并与当前深度学习现有流行算法进行比较。实验结果表明,本文所提方法与原始C3D网络模型相比,在UCF101数据集和HMDB51数据集上识别率分别提高了8.9%和7.9%,参数量压缩为原来的32.9%,并且在模型压缩和识别率上也均优于其他方法。  相似文献   

7.
在深度有监督哈希图像检索的特征提取过程中,一直由卷积神经网络架构主导,但是随着Transformer在视觉领域中的应用,Transformer替代卷积神经网络架构成为可能.为了解决现存基于Transformer的哈希方法中不能生成层次表示和计算复杂度高等问题,提出了一种基于Swin Transformer的深度有监督哈希图像检索方法.该方法以Swin Transformer网络模型为基础,在网络最后添加一个哈希层,为图像进行哈希编码.该模型中引入了局部思想和层级结构,能够有效解决上述问题.与现有的13种先进方法相比,所提方法的哈希检索性能得到大幅提升.在两个常用检索数据集CIFAR-10和NUS-WIDE上进行实验,实验结果表明:在CIFAR-10数据集上所提方法mAP最高达到98.4%,与TransHash方法相比平均提高7.1%,与VTS16-CSQ方法相比平均提高0.57%;在NUS-WIDE数据集上所提方法mAP最高达到93.6%,与TransHash方法相比平均提高18.61%,与VTS16-CSQ方法相比检索精度平均提高8.6%.  相似文献   

8.
图像情感分布学习可以对多种情绪同时进行建模,但现有的模型缺乏有效的方法直接考虑情绪之间的相关性.针对这一问题,该文提出一种基于情感轮和多任务卷积神经网络(EW-MTCNN)的图像情感分布学习模型,通过先验知识模块将心理学情感知识直接引入到深度神经网络中.基于Mikel's情感轮定义成对情绪之间的相关性,EW-MTCNN模型采用多任务卷积神经网络学习情绪之间的相关性信息,同时优化情感分布预测和情绪分类任务.EW-MTCNN模型由3个模块组成,3个模块分别是图像特征提取层、情感轮先验知识层和多任务损失层.在情感分布数据集(Emotion6)和单标签数据集(Artphoto)上进行对比实验的结果表明:EW-MTCNN模型在情感分布预测与情绪分类任务上比其他情感分布学习方法具有更优的性能.  相似文献   

9.
人体行为识别是计算机视觉领域研究的一个热点,为了提高视频中的人体行为识别的准确率,提出了一种基于3D卷积神经网络的行为识别方法,首先构建3D CNN模型,通过三维卷积核,来提取视频中人体行为的时-空域信息,最终并在UCF-101数据集上进行训练与测试,证明了该方法具有较好的识别效果。  相似文献   

10.
近年来卷积神经网络(convolutional neural network,CNN)在行为识别任务中取得了较大的进展.然而,现有的神经网络方法往往只注重高层语义信息的利用,对浅层特征信息挖掘利用不够.针对这一问题,提出一种基于3D卷积(convolution 3D,C3D)的多尺度3D卷积神经网络的行为识别方法.该方法受到特征金字塔结构的启发,在原C3D的基础上融合C3D的浅层特征信息,实现端到端的行为识别.同时该方法以现有的深度学习理论为基础,利用迁移学习的思想,将C3D和该方法中相同模块部分的参数迁移到本方法中,以降低模型的训练时间.通过在UCF101数据集上进行实验,实验结果表明,提出行为识别方法的分类精度达到84.56%,分类效果优于原C3D分类网络.  相似文献   

11.
手语作为表达信息的一种方式,是聋哑人与外界交流的最主要途径。随着人工智能技术的发展,新型、自然、便捷的人机交互方式已经成为当今各行业交互方式的新趋势。传统手语识别方法普遍存在背景干扰严重、特征提取不完整及识别准确率低的缺点。针对以上问题进行研究,提出基于彩色-深度(RGB-D)图像的手语识别算法。在静态孤立词手语识别的基础上测试,实验对比结果表明,基于RGB-D的方法能得到比传统手语识别算法更好地性能;利用深度信息处理图像,有效地去除了场景中光照、背景的干扰,同时结合肤色信息去除非手形部分;采用概率神经网络(PNN)手语分类器对孤立词的识别准确率超过90%,取得了较高的识别率。  相似文献   

12.
目的 健康状态是评估锂离子电池状态的关键参数,对锂离子电池的安全使用有着十分重要的意义,为了获得准确可靠的健康状态估计结果,建立基于卷积神经网络和Transformer的锂离子电池健康状态估计方法,利用不同模型的数据挖掘特性,将健康指标的深层信息和随循环周期增加的时序信息并行提取。方法 从锂离子电池放电过程中的部分电压和温度曲线中提取3个与健康状态相关性较强的健康指标作为模型输入,利用卷积神经网络强大的特征提取能力挖掘健康指标的局部特征,利用Transformer的顺序处理能力挖掘健康指标的时序特征,将健康指标的局部特征和时序特征进行特征融合,通过卷积和全局平均池化层输出健康状态估计值。结果 本研究使用MIT数据集进行实验验证,并与卷积神经网络和长短时记忆神经网络进行对比分析,所提出的方法的均方根误差和平均绝对误差是最低的,为0.11和0.08,最小相对误差为0.61%。结论 所提出的CNN-Transformer健康状态估计采用不同模型挖掘健康指标不同的特征信息,能够充分利用锂离子电池放电数据,且具有良好的估计效果。  相似文献   

13.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

14.
针对基于卷积神经网络(CNNs)的人体动作识别方法通常采用空域或时域局部特征的不足,提出一种融合人体动作全局时域和空间特征的双通道CNNs动作识别模型.空间通道对动作图像进行深度学习,采用多帧融合的方式提升准确率,全局时域通道对能量运动历史图(EMHI)进行深度学习,最后融合两个通道信息识别人体动作.利用现有的大型数据集进行预训练,以解决学习过程中训练样本不足问题.在UCF101数据集和该项目小样本数据集上进行实验,结果证明了该方法的有效性.  相似文献   

15.
针对目前行为识别方法的不足,提出一种基于人体3D骨架和多CRF模型(MCRF)的行为识别方法.3D骨架数据量少且保留了行为关键信息的优点,并具有融合多特征和上下文信息的优势.为此,首先基于3D骨架将人体动作划分为全局运动、手臂运动和腿部运动,通过对动作序列进行多类特征提取,形成多类特征集;然后利用CRF模型对每一特征集建模,再融合所有的CRF模型,得到MCRF模型;最后利用MCRF模型进行行为识别.实验结果表明,该方法具有较高检测率.  相似文献   

16.
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration, ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network, BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network, IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field, CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia, MSRA)数据集上的F1值达到了95.18%,相比基准模型BiLSTM-CRF F<...  相似文献   

17.
针对基于卷积神经网络的行人重识别算法全局信息建模不足的问题,分析了卷积操作的局限性,提出一种基于Transformer改进的全局-局部两分支行人重识别算法.首先利用相对位置编码改进多头自注意力机制,并将其嵌入到Resnet50骨干网络中.之后在全局分支中对图像进行空间几何划分并利用Transformer的全局感受野增强抽象特征的提取能力;在局部分支中对Layer_3输出进行降维监督,利用多尺度池化获得更丰富的局部特征.实验结果表明,该算法在公开数据集Market-1501和DukeMTMC-reID上的mAP/Rank-1分别达到了93.45%/95.61%和88.79%/90.35%,相对于单纯基于卷积神经网络的算法,本文算法达到更高的精度.  相似文献   

18.
由于脑肿瘤的大小和形状呈不规则状态,从三维磁共振图像中自动分割脑肿瘤是一项具有挑战性的任务.而目前的方法存在两个问题:基于3D建模的方法参数量较大难以训练而且全局或远距离上、下文信息的关联性不足;模型忽略局部区域细节特征使得分割结果边界模糊.为解决上述问题,本文提出了循环分层解耦卷积和最大滤波(recurrent hierarchical-decoupled convolution and maximum filtering,RHMF)的轻量网络实现三维脑肿瘤图像分割.该网络在特征提取阶段提出循环分层解耦卷积取代标准卷积,减少参数利用多时域的反馈信息建立全局上、下文信息关联.引入改进的多尺度策略对不同尺度下的多层次特征进行提取融合,提高网络的目标识别能力.在定位阶段做局部域细节处理,提出了最大滤波模块激活目标区域像素实现特征图的像素级定位,增强目标区域像素与其他区域像素的区别,进一步细化分割,解决边界模糊问题.在BraTS2020数据集上的实验结果表明,RHMF-Net在增强肿瘤区、整体肿瘤区和核心肿瘤区的平均Dice系数值分别为77.23%、90.01%和83.10%,参数量为0.4...  相似文献   

19.
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型.  相似文献   

20.
现有的路面裂缝识别方法大多仍局限于基于主动特征提取的处理技术,对路面图像来源有专一性要求,算法不具备泛化能力,现有的基于神经网络识别算法对设备有特定要求,且路面裂缝的定位准确性不高。为此,提出基于深度卷积神经网络融合模型的路面裂缝识别方法。首先,应用多目标SSD卷积神经网络模型对路面裂缝进行分类检测,然后使用深度残差网络对SSD模型的特征提取结构进行改进,并根据损失函数的收敛程度对模型中的超参数进行优化,提高路面裂缝分类和定位的准确率;其次,针对裂缝分类检测模型对路面裂缝定位存在的偏差,提出基于U-Net模型的路面裂缝分割方法,并改进模型的特征提取网络,提高裂缝分割精度,实现精确的裂缝分割;最后,将裂缝分类检测模型与分割模型进行融合,加载2个模型并导入上述训练得到最优权重,根据裂缝分类网络判断路面图像有无裂缝,若存在裂缝则给出具体类别和置信度,并将这些信息和原始裂缝图像输入U-Net分割网络,根据分割结果计算线性裂缝的长度、宽度及网状裂缝的面积。试验结果表明:给出的路面裂缝识别方法对于横向裂缝、纵向裂缝和网状裂缝的识别精度分别为86.6%、87.2%和85.3%;该方法不仅能够给出路面裂缝的类别信息,还可以给出路面裂缝的精确定位和几何参数信息,可直接用于路面状况评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号