首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 703 毫秒
1.
近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺乏先前的信息引导,提出了记忆助手的方法,并给出了一种面向大规模中文数据集的多模态神经网络模型.该模型采用深度卷积神经网络(Inception-v4、Inception-ResNet-v2)和注意力机制提取图像视觉特征,在循环神经网络中引入记忆助手来引导句子的生成.实验证明,在AI CHALLENGER测试集中,这种模型显著地提高了各项评价指标.  相似文献   

2.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

3.
提出一种改进的编码器 解码器模型。模型采用多尺度密集卷积网络作为编码器,以提取手写数学公式图像的多分辨率特征。采用完全基于注意力机制的Transformer模型作为解码器,依据图像特征将二维手写数学公式解码为一维 LaTeX 序列。通过相对位置编码嵌入图像位置信息和LaTeX符号位置信息。实验结果表明,模型在官方CROHME 2014数据集上取得了优异的性能,相比于当前最先进的方法,其公式识别准确率提高了3.55%,字错误率降低了1.41%。  相似文献   

4.
针对PM2.5浓度预测模型效果不稳定、泛化能力差的问题,以循环神经网络和注意力机制为基础,提出了二向注意力循环神经网络(TDA RNN)。首先,TDA-RNN模型通过注意力机制获取输入数据的时序注意力和类别注意力,并将其进行融合;然后通过特征编码器对融合后的数据进行编码,获得中间特征;最后将中间特征与PM2.5浓度的历史信息融合,并通过特征解码器获取预测值。对北京地区的PM2.5浓度进行了预测。结果表明,相比前向型神经网络、长短期记忆神经网络、门控循环单元模型和滑动平均模型,TDA-RNN模型预测精度更高;在抗干扰测试中,当输入数据存在无关因素时,TDA RNN模型的预测精度出现轻微下降,但仍高于其他模型。该二向注意力循环神经网络特征提取能力强,预测精度高,同时可适用于其他场景的多变量时间序列预测。  相似文献   

5.
提出了基于编码器?解码器结构的路面平整度预测模型。对比分析了不同网络层的表现,并比较了网络层个数、隐藏节点数、数据时间窗口对模型精度的影响。在美国交通部公开的LTPP(long-term pavement performance)数据库的基础上构建了国际平整度指数(IRI)数据集,并对模型进行了训练和评估。结果表明:采用门控循环单元(GRU)网络层的编码器?解码器结构的预测性能最好,优于经典的机器学习模型XGBoost和单独长短期记忆(LSTM)网络。通过特征随机打乱的方式对不同输入特征的重要性进行了评估,结果显示路面结构和温度对于路面平整度预测比较重要,在数据库建设时应注意对这些数据的收集。  相似文献   

6.
在空气污染大数据预处理的基础上,提出了一个基于深度学习的空气污染物浓度预测平台.该平台架构分为数据采集层、模型层和可视化界面层3个层次,分别实现了数据采集与处理,基于长短期记忆(LSTM)网络模型的污染物浓度预测,以及预测结果可视化的功能,通过对用户个性化模型参数的设置,实现不同时间段污染物浓度时间序列的预测.  相似文献   

7.
为对图像中大面积缺失区域进行合理的结构修复和精细的纹理填充,提出了一种基于双转移网络的深度特征重排图像修复算法.首先提取缺失图像的特征并还原图像纹理细节;然后根据编码器特征估计缺失内容,提出基于解码器特征的内容损失函数,减少全连接层的解码器特征与缺失区域编码器特征之间的距离,保证合成图像语义的准确性和结构的合理性.在公开数据集上,将提出算法与现有经典算法进行对比,结果表明:在大面积缺失图像修复中,提出算法能得到清晰、细节细腻且视觉合理的结果.  相似文献   

8.
为了提高跨视角步态识别的准确率,充分提取步态中的时间信息,提出了一种基于步态序列的跨视角步态识别模型,该模型利用编码器,并引入三元组损失函数,以此提取步态序列的特征,通过使用生成器与判别器,以及连续帧判别损失对编码器进行修正,确保提取具有时间信息的有效步态特征.针对CASIA-B数据集和OU-MVLP数据集,对提出的方法进行了实验研究,且与卷积神经网络和步态能量图方法进行了实验比较,验证了提出方法的有效性.  相似文献   

9.
化合物毒性预测中所使用的有标签数据较少且存在数据类别不平衡问题,因此为了解决这个问题,提高预测准确率,本文提出了一种自编码器-辅助分类器的生成对抗网络(AE-ACGAN)分子生成模型.该模型使用自编码器处理化合物数据得到特征向量,然后将其作为ACGAN模型的输入,生成的输出通过解码器解码得到新的化合物分子,在原始的ACGAN基础上进行改良,引入wasserstein距离解决原始模型的模式坍塌问题,同时对模型中的判别器的结构进行改良,在ACGAN模型的输入中加入真实的无标签数据来增强判别器的鉴别能力,使得无标签的数据也能得到充分的利用.实验结果表明,本文所提出的模型可以生成新颖的化合物分子,而且与原始数据具有相同的特征,可以加入到原始数据集中进行数据扩充,平衡后的数据集能够提升预测模型的准确率.  相似文献   

10.
实现PM2.5浓度的精准预测对空气污染防治具有重要的指导作用.鉴于多数研究中PM2.5浓度预测算法和特征都较为单一,不能精确实现PM2.5浓度的短时预测,提出了一种新颖的混合预测框架(RF-EMD-LSTM),通过过去24 h数据实现下一小时PM2.5浓度预测.首先利用随机森林算法(random forests, RF)对污染物数据特征进行重要性评估,实现特征选择;然后再将特征数据与通过经验模态分解(empirical mode decomposition, EMD)的PM2.5特征分解后的序列联合作为长短期记忆网络(long short term memory network, LSTM)的输入数据,进行模型训练,训练结果相加获得最终PM2.5浓度预测值.实验结果表明,提出的混合模型与其他单一模型相比,预测精度明显最佳.  相似文献   

11.
基于编码器共享和门控网络的生成式文本摘要方法   总被引:2,自引:0,他引:2  
结合基于自注意力机制的Transformer模型, 提出一种基于编码器共享和门控网络的文本摘要方法。该方法将编码器作为解码器的一部分, 使解码器的部分模块共享编码器的参数, 同时使用门控网络筛选输入序列中的关键信息。相对已有方法, 所提方法提升了文本摘要任务的训练和推理速度, 同时提升了生成摘要的准确性和流畅性。在英文数据集Gigaword和DUC2004上的实验表明, 所提方法在时间效率和生成摘要质量上, 明显优于已有模型。  相似文献   

12.
针对基于编-解码器网络的图像隐写方案生成的含密图像和消息图像质量不高的问题,提出了一种新的基于密集残差连接的编码器-解码器隐写方案,与现有的端到端图像隐写网络不同,本文采用密集残差连接,将浅层网络的特征输送到深层网络结构的每一层,有效的保留了特征图的细节信息,并使用通道和空间注意力模块对特征进行筛选,提高了编-解码器对图像复杂纹理区域的关注度。在LFW、PASCAL-VOC12和ImageNet数据集的实验结果表明,在保证算法安全性的前提下,所提方法能够有效提高图像质量,含密图像和载体图像的峰值信噪比(PSNR)和结构相似性(SSIM)的平均值最高达到了36.2dB和0.98。  相似文献   

13.
提出一种新的基于生成对抗网络的人脸属性编辑全局组织网络算法.人脸属性编辑是指通过结合编码解码器结构与生成对抗网络,生成具有期望属性的人脸图像.传统的编码解码器结构对人脸的重构和编辑能力有限.直接将编码特征与属性标签结合会因为融入编码特征造成属性编辑性能低下,同时,也会由于缺失编码特征造成人脸还原度的损失,两者无法平衡.因此,提出U型传递方式与全局组织单元. U型传递改变了传统的属性流动方式,并生成反向状态.全局组织单元结合反向状态生成全局属性信息,在编码解码器中搭建桥梁,帮助解码器更好地融入编码器特征与属性信息.与此同时,为了更好地配合全局组织模块,重新设计了编码器下采样.实验结果表明,本文所提方法可以同时提高模型的人脸重塑与属性编辑能力.   相似文献   

14.
在综合分析AVS-M视频编码传输过程中扩散失真和掩盖失真的基础上,从像素级对端到端的视频传输失真情况进行了研究。采用了一种通用的传输失真度估算模型,根据该失真度估计模型,实现了一种无反馈的关键参考帧选择算法。通过评价选择不同参考帧情况下的端到端失真度期望,在编码器率失真框架内选择最合适的参考帧,使有损传输情况下解码端的失真度达到最小。有反馈信道条件下,提出了基于反馈的关键参考帧选择算法,在帧存开销不大的条件下,极大的提高视频传输的抗差错性能。实验表明,采用的失真度估计模型能够较好地适应AVS-M标准,可以较好地估计出端到端的失真情况。实验还显示,基于率失真优化的关键参考帧选择算法,在3-20%丢包率(128kbps)情况下,无反馈和有反馈关键参考帧选择方法较AVS-M标准,PSNR值分别提高了1.9~6.4dB和2.7~10.9dB,较大提高了AVS-M视频差错恢复性能。  相似文献   

15.
为提升智能交通、自动驾驶等系统的管理和服务质量,提出一种双向长短期记忆网络结合注意力机制的车辆轨迹预测模型。采用道格拉斯-普克压缩算法对轨迹数据进行压缩预处理,减少数据中的冗余;在编码器中使用双向长短期记忆网络充分捕获时间相关性特征,并采用自注意力机制获得与邻近车辆之间的全局空间相关性特征;通过解码器的全连接层获取车辆的未来位置,并通过模型迭代获得完整的预测轨迹路线。实验结果表明,提出的模型预测性能优于对比模型。此外,消融实验结果表明,引入轨迹压缩算法与改进的长短期记忆网络结合注意力机制对预测准确度均有积极贡献。  相似文献   

16.
针对如何改善H.264无线视频传输抗误码性能,提出了一种基于数据隐藏的H.264视频传输I帧误码恢复方法。该方法在编码端自适应地提取I帧宏块的重要数据,并将提取的重要数据隐藏到下一帧RTP报文的扩展头部,然后在解码端提取重要数据并采用空时自适应算法对I帧进行误码恢复。实验结果表明,该方法相比于同类方法显著提高了I帧的误码恢复效果。  相似文献   

17.
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题, 提出一种基于语义对齐的神经网络文本摘要方法。该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础, 在编码器与解码器之间加入语义对齐网络, 实现文本到摘要的语义信息对齐; 将获得的摘要整体语义信息与解码器的词汇预测上下文向量进行拼接, 使解码器在预测当前词汇时不仅利用已预测词汇序列的部分语义, 而且考虑拟预测摘要的整体语义。在中文新闻语料LCSTS上的实验表明, 该模型能够有效地提高文本摘要的质量, 在字粒度上的实验显示, 加入语义对齐机制可以使Rouge_L值提高5.4个百分点。  相似文献   

18.
针对利用多元线性回归和时间序列模型预测PM2. 5时,存在信息利用不全面和预测精度不高的问题,提出了基于多元时间序列(ARMAX)的PM2. 5预测方法;方法在回归项中引入了PM2. 5影响因子在时间序列上的滞后性阶数,并对残差序列进行信息提取,建立了PM2. 5浓度预测模型;首先通过"天气后报网"采集了合肥市2017年和2018年污染物数据;完成了数据的预处理及相关性分析;分别建立了PM2. 5浓度预测的多元线性回归模型、时间序列模型和ARMAX模型;最后通过RMSE、MAE和Theil不相等系数3个评价指标,将3个模型预测精度进行比较;结果表明:ARMAX模型的预测精度显著高于单一的时间序列模型或多元线性回归模型。  相似文献   

19.
介绍了H.264/AVC编码器、解码器的原理,分析了H.264的主要技术如分层设计、帧内预测编码、帧间预测编码等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号