首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对包含细微差异动作的视频数据集,提出了一种用于分辨细粒度差异动作的深度神经网络.该网络结构由一个三维卷积(C3D)网络的轻量化变体和一个基于注意力机制的长短时记忆网络组成,优化了三维卷积网络的深度和注意力机制的权重惩罚项.实验结果表明:该网络可以有效地关注视频中的重要信息,在平均准确率和检测准确率上均有所提升.  相似文献   

2.
针对细粒度图像分类中数据分布具有小型、非均匀和不易察觉类间差异的特征,提出一种基于注意力机制的细粒度图像分类模型.首先通过引入双路通道注意力与残差网络融合对图像进行初步特征提取,然后应用多头自注意力机制,达到提取深度特征数据之间细粒度关系的目的,再结合交叉熵损失和中心损失设计损失函数度量模型的训练.实验结果表明,该模型在两个标准数据集102 Category Flower和CUB200-2011上的测试准确率分别达94.42%和89.43%,与其他主流分类模型相比分类效果更好.  相似文献   

3.
针对目前细粒度图像分类算法存在的局部区域特征捕捉不全面的问题,在B-CNN算法基础上提出了一种基于注意力机制的细粒度图像分类算法。首先利用数据增强的6种方式对训练数据集进行扩充,然后在B-CNN算法的特征提取中引入注意力机制,使用卷积注意力模块CBAM精准获取图像局部区域特征,最后融合特征进行分类。改进后的算法分别在CUB-200-2011和Stanford Cars两个数据集上进行实验,与当前先进算法比较,所提算法提高了细粒度图像的分类效果。  相似文献   

4.
BP网络是一全局逼近的网络,通常,在对样本数据的选取要求上,它不如RBF网络同,即BP网络 训练样本数据的代表性不强时 表现出对非线性函数较强的逼近性能,鉴于此,作者提出一种复合型前馈神经经网络结构,在此结构中,笔者采用了BP神经网络对训练数据进行预处理而得到径向基函数(RBF)网络的初始中心矢量点集的方法,该方法使得RBF网络中心矢量点集由传统的随机确定改为它的优化选取,由它确定的RBF网络的中  相似文献   

5.
BP网络是一全局逼近的网络,通常,在对样本数据的选取要求上,它不如RBF网络高,即BP网络在训练样本数据的代表性不强时也可表现出对非线性函数较强的逼近性能,鉴于此,作者提出了一种复合型前馈神经网络结构在此结构中,笔者采用了BP神经网络对训练数据进行预处理而得到径向基函数(RBF)网络的初始中心矢量点集的方法该方法使得RBF网络中心矢量点集由传统的随机确定改为对它的优化选取,由它确定的RBF网络的中心矢量具有相当的柔性,从而增强了径向基函数(RBF)神经网络整体的泛化性及鲁棒性,最终使得该复合型神经网络具有了很好的精度和泛化性仿真结果表明了本文所提网络的有效性  相似文献   

6.
作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的内在关联性,利用长短时记忆网络将注意力集中在历史的解码序列,融合历史的解码信息有效地指导解码,提升模型预测的准确性.所提算法主要在TVSum和Sum Me数据集上进行了大量实验,验证了其有效性及先进性.  相似文献   

7.
具有泛化能力的视觉特征对于计算机视觉任务来说是至关重要的。基于深度神经网络的方法采用逐层叠加特征的形式获取多尺度特征图,导致计算开销显著增加。为解决这一问题,通过在标准卷积算子中部署渐进式多尺度架构,提出一种轻量和高效的尺度嵌套卷积算子(scale-in-scale,SIS)。具体来说,设计了一种变换—分离—对抗机制来优化常规的通道计算,减轻了计算成本,同时在单一卷积层内扩大了感受野。同时,引入权重共享与特征拆分交互运算,并结合特征递归和融合机制,使所提出SIS算子能够与其他卷积算子结合,例如经典的Res Net和Res2Net架构。我们将SIS算子部署到第29层、50层和101层的Res Net和Res2Net变体中,并在CIFAR、PASCAL VOC和COCO2017等公开基准数据集上评估这些修改后的模型。实验结果表明,所提出的方法在图像分类、关键点估计、语义分割和物体检测等计算机视觉任务上的性能均优于同时期最先进的方法。  相似文献   

8.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

9.
设计前馈神经网络结构的一种新方法   总被引:3,自引:0,他引:3  
提出了一种设计前馈神经网络结构的新方法,该方法对网络隐层节点的输出作奇异值分解,根据奇异值大小的分布情况来决定隐层节点的个数,优化网络结构。这种方法同样也适用于有多个隐含层前馈神经网络的设计。应用这种方法来设计一个前馈神经网络并对一复杂信号建模和进行预测,能取得令人满意的结果。  相似文献   

10.
积极应对气候变化是可持续发展的目标之一。针对气温准确预测任务,提出了一种基于图注意力机制的气温预测模型。该模型在气温站点组成的拓扑结构上使用了注意力机制,选择性地聚合周围区域的气温特征,再使用神经网络拟合复杂的气温变化规律,得到预测结果。实验使用了2000—2010年京津冀地区的气温数据,经大量实验验证,在极少依赖历史气温数据的情况下,模型能够得到更准确的预测值。模型能够为气候预测和气候灾害预防提供决策支持。  相似文献   

11.
共轭梯度法因具有迭代简单、收敛性和低内存等优点而在求解大型优化问题中发挥着重要作用。本文对已有文献中的共轭参数RMILβk进行改进,得到了一种新的谱共轭梯度法。该方法每步迭代产生的搜索方向具有下降性。在适当的条件下,该方法在Armijo线搜索和Wolfe线搜索下均具有全局收敛性。数值试验表明,该方法可行有效。  相似文献   

12.
视频修补的目的是基于视频帧之间的时空域上下文信息修补空洞.现有的方法由于不能准确地对运动轨迹进行建模经常导致修补结果无法保持良好的时空一致性.为此引入灵活的形状自适应网格作为基本处理单元,将网格流用于运动表示,提出了一个基于网格流的视频修补网络,通过先预测网络流再添补空洞区域的方式对视频进行修补.具体地,首先设计了一个网格流预测模块用于预测视频中可见内容的网格流的预测和一个网格流修补模块用于修补视频中空洞区域的网格流,通过这种方式将网格流的预测和修补解耦以达到更容易训练优化的目的.我们进一步设计了一个混合损失函数用于同时优化可见区域、修补区域和整个视频帧范围的网格流预测结果.为修正经过网格流变换引起的失真现象,最后设计了一个修补优化网络.大量试验结果证明,本文提出的方法不仅从主观评判和客观指标得到相比于现有方法更好的修补结果,而且相比于现有最快的方法达到了4倍的速度提升.  相似文献   

13.
在新服装产品销售预测任务中,由于缺乏历史销售数据,通常需要充分利用其他模态的数据作为补充。然而,多模态服装数据通常具有冗余性和异构性。为解决这些问题,提出一种包括三个主要元素的层次化多模态注意力循环神经网络(hierarchical multi-modal attention based recurrent neural network, HMA-RNN)。层次化结构将高层语义信息与低层语义信息分离,以避免信息冗余。在模态融合阶段引入多模态注意力机制(multi-modal attention, MMA)以减轻固有的数据不对齐问题。采用共享注意力机制构建跨多模态数据的依赖关系。在Visuelle 2.0数据集上的试验结果表明,所提出的方法加权平均百分比误差(weighted average percentage error, WAPE)为72.07,平均绝对误差(mean absolute error, MAE)为0.80,明显优于现有的方法,表明了该研究所提出的方法的有效性。  相似文献   

14.
一种新的混沌识别方法(I)   总被引:3,自引:1,他引:2  
为了识别混沌信号和随机信号,针对G-P算法及其改进算法的不足,提出了一种新的改进算法,该算法不仅能简化无标度区的确定过程,而且能客观地判断系统的关联维数是否饱和,仿真结果表明,新的改进算法对于混沌信号的识别是有效的。  相似文献   

15.
一种新的混沌识别方法(II)   总被引:1,自引:0,他引:1  
针对G-P算法及其改进算法的不足,提出了一种新的改进算法,应用该算法不仅能简化无标度区的确定过程,而且能客观地判断系统的关联维数是否饱和,从而对随机信号和混沌信号加以识别,对新的G-P改进算法进一步分析表明,新的G-P改进算法适用范围广泛,对于混沌信号的识别很有效。  相似文献   

16.
基于量子力学新模型, 提出一种新的实用的图像缩放算法, 使得处理后的视频能有很好的图像质量。不同于量子力学中的一些模型, 新方法将图像看做一个连续的能量场。此方法修改了传统的基数样条函数, 并通过减少跨越图像物体边缘的采样来增加视觉的舒适度。该算法具有复杂度低和一致稳定的特点, 特别适合用于嵌入式设备, 如手机及PDA。  相似文献   

17.
提出了一种估计吸引域的新方法.与已有成果相比,该方法的优势主要体现在以下两个方面:1本文结果中不含有任何系统动态矩阵与Lyapunov矩阵的乘积形式;2所得结果不会引入繁重的计算代价.因此,该结果特别适用于系统分析.为了体现该方法获得结果的优势,将结果推广到不确定饱和系统.结果显示,新的方法对不确定饱和系统吸引域的估计具有较少的保守性.相应的数值仿真验证了结论的正确性.  相似文献   

18.
提出了一种基于RSS(received signal strength)的改进的可见光定位算法,并且通过实验验证了该算法.为了消除相邻LED光信号的干扰,相邻灯采用时分的模式发送信号.首先,通过仿真和实验结果分析了基于朗伯模型的RSS定位算法,然后提出了一种改进的定位算法.通过实验结果和仿真结果证明,该定位算法在实用定位系统中的定位误差可达到厘米级别,并且该定位算法的鲁棒性更好、算法复杂度更低,更适合于实际工程应用.  相似文献   

19.
基于视频帧间信息特征,提出了基于通道注意力机制的循环残差注意力网络,将连续的低分辨率视频帧、前一时刻输出帧和隐藏态作为输入进行特征提取,在隐藏态中引入残差连接和注意力机制,增强网络特征提取能力,经过亚像素卷积层重建出高分辨率视频帧。然后将本视频超分辨率网络模型在Vid4、UDM10、SPMCS视频数据集进行了测试。实验结果表明,与其他基于深度学习的视频超分辨率方法相比,本方法能利用帧间特征信息较好地恢复高频特征信息,恢复的视频图像PSNR和SSIM值都比其他主流方法要高,同时取得了较好的主观视觉效果。  相似文献   

20.
甘宏 《江西科学》2022,40(4):758-761
随着语音识别和自然语言处理技术的成熟,智能语音技术逐步落地到各行各业,但目前智能语音产品缺乏情感的交互,未实现真正的智能。为了提升智能语音产品的拟人性,学术界对语音情感识别的研究热度越来越高,但是多局限在使用传统特征工程以及通用深度学习模型上。在应用深度学习模型的基础上引入注意力机制对语音情感识别展开研究,选用语谱图作为输入特征,并对CNN输出的特征进行通道维度的注意力关注,分析注意力计算过程中不同池化方式对识别结果的影响,并引入残差,提升模型表现力,最终UA实现了2.83%的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号