首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对Frustum-PointNets的实例分割网络结构单一且卷积深度较深、易出现特征丢失和过拟合,检测准确率较低的问题,提出了一种改进的Frustum-PointNets网络。该网络首先构建深度残差网络并融入实例分割网络,提高特征提取能力,解决深层网络的退化问题;引入双重注意力网络以增强特征,提高分割效果;运用Log-Cosh Dice Loss解决样本不均衡,加快网络训练;使用Mish激活函数保留特征信息;最后基于Kitti和SUN RGB-D两个数据集进行实验验证本文算法的有效性。实验结果表明,本文算法相对于Frustum-PointNets,在Kitti数据集中,3D框检测精度提高了0.2%~13.0%;鸟瞰图的3D框检测精度提高了0.2%~11.3%。在SUN RGB-D数据集中,本文算法的3D框检测精度提高了0.6%~16.2%,平均检测精度(m AP)提高了4.4%。实验验证,本文算法在室外和室内场景中获得较好的目标检测及分割效果。  相似文献   

2.
为解决现有视频摘要方法的视频帧特征信息提取不充分、摘要结果过分依赖单一特征的问题,提出了一种融合时空切片和双注意力机制的视频摘要方法。在原视频的精准分段阶段,提出了基于时空切片的核时序分割算法(STS-KTS),将视频场景信息反映为时空切片纹理信息,采用水平映射法将预处理后的时空切片投影为一维数组,作为KTS的输入特征;以双注意力机制和分组卷积为基本组件,结合BiLSTM构建时空特征提取网络,以快速提取丰富的时空特征信息,从而配合纹理特征信息消除现有摘要模型对单一特征的过分依赖;采用帧参数预测模块获取最佳的视频帧贡献度分数、中心度分数以及帧序列位置;将帧分数转化为镜头分数,以选取内容丰富的片段,进而生成动态视频摘要。在SumMe和TVSum数据集上的实验表明:所提方法能提高生成摘要的准确性,比现有方法性能更高,尤其在SumMe数据集上的生成摘要准确性相比于现有方法提升了0.58%。  相似文献   

3.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

4.
传统人体行为识别基于人工设计特征方法涉及的环节多,具有时间开销大,算法难以整体调优的缺点。以深度视频为研究对象,构建了3维卷积深度神经网络自动学习人体行为的时空特征,使用Softmax分类器进行人体行为的分类识别。实验结果表明,提出的方法能够有效提取人体行为的潜在特征,不但在MSR-Action3D数据集上能够获得与当前最好方法一致的识别效果,在UTKinect-Action3D数据集也能够获得与基准项目相当的识别效果。本方法的优势是不需要人工提取特征,特征提取和分类识别构成一个端到端的完整闭环系统,方法更加简单。同时,研究方法也验证了深度卷积神经网络模型具有良好的泛化性能,使用MSR-Action3D数据集训练的模型直接应用于UTKinect-Action3D数据集上行为的分类识别,同样获得了良好的识别效果。  相似文献   

5.
6.
近年来,基于卷积神经网络(CNN)的单幅图像超分辨率重构得到了广泛应用﹒然而,随着网络不断加深,也同时出现了参数过多、计算代价过大和难以训练等问题﹒为解决上述问题,提出一种新的深度残差密集网络(DRDN)框架并应用于单幅图像超分辨率重建﹒首先,网络通过密集连接充分利用了低分辨率图像从浅层到深层的各层特征,为超分辨率重构提供更多的低分辨率图像信息;其次,为了充分融合全局特征信息,通过残差学习的方式进行融合重构,同时为了缓解深层网络带来的训练困难等问题,网络采用多路跳步连接,使误差更加快速地传到各层网络;最后,将该方法与深度递归残差网络(DRRN)方法在公共数据集上进行了实验比较,结果表明DRDN在网络稳定性、时间效率、收敛速度和重建效果等方面都优于DRRN﹒  相似文献   

7.
盾构荷载作为盾构的主要性能指标,准确的荷载预测对于保证盾构安全高效工作和周边环境稳定具有重要意义.鉴于传统预测方法精度差的局限性,本研究以数据的高维度特征和时序特征为切入点,提出一种结合卷积神经网络、双向长短期记忆神经网络和注意力机制的混合模型(CNN-BiLSTM-Multiattention, CBM),对盾构荷载进行精准预测.该模型不仅可以提取数据的高维度特征和时序特征,还能突出高维度特征的重要性和关键时间节点信息.通过实验证明了相较于4种现有的模型,本文所提出的模型在3种评价指标上均优于其他模型,对推力和扭矩预测的准确率达到94.2%和96.2%.  相似文献   

8.
针对现实生活中垃圾分类知识普及不够,许多城市和学校都面临着垃圾分类困难的问题,利用神经网络对分类问题的高效性和准确性,通过一种基于ResNet网络和SENet网络的深度残差收缩网络实现垃圾图像分类。通过对Garbage数据集进行筛选得到实验所需数据集,并对ResNet进行改进,将SENet和软阈值化操作加入ResNet结构中。实验结果表明,该方法通过网络训练和超参数调整,得到了较好的识别率,在校园垃圾分类中获得了较好的识别效果,具有一定可行性。  相似文献   

9.
基于视频帧间信息特征,提出了基于通道注意力机制的循环残差注意力网络,将连续的低分辨率视频帧、前一时刻输出帧和隐藏态作为输入进行特征提取,在隐藏态中引入残差连接和注意力机制,增强网络特征提取能力,经过亚像素卷积层重建出高分辨率视频帧。然后将本视频超分辨率网络模型在Vid4、UDM10、SPMCS视频数据集进行了测试。实验结果表明,与其他基于深度学习的视频超分辨率方法相比,本方法能利用帧间特征信息较好地恢复高频特征信息,恢复的视频图像PSNR和SSIM值都比其他主流方法要高,同时取得了较好的主观视觉效果。  相似文献   

10.
贺凤      张洪博      杜吉祥      汪冠鸿     《华侨大学学报(自然科学版)》2020,(6):808-815
提出一种长短时记忆网络的自由体操视频自动描述方法.在视频描述模型S2VT中,通过长短时记忆网络学习单词序列和视频帧序列之间的映射关系.引入注意力机制对S2VT模型进行改进,增大含有翻转方向、旋转度数、身体姿态等关键帧的权重,提高自由体操视频自动描述的准确性.建立自由体操分解动作数据集,在数据集MSVD及自建数据集上进行3种模型的对比实验,并通过计划采样方法消除训练解码器与预测解码器之间的差异.实验结果表明:文中方法可提高自由体操视频自动描述的精度.  相似文献   

11.
随着互联网的普及,每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值,图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit, GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory, LSTM)解析图像特征和语义信息并生成描述语句。在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然。本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675...  相似文献   

12.
针对现如今监控摄像、卫星遥感以及视频娱乐等领域对视频图像的清晰度要求越来越高,而目 前大部分视频超分辨方法存在参数量大、恢复的视频存在抖动等问题,提出了一种多注意力结合光流的视频 超分辨方法,通过引入多个注意力包括空间注意力、通道注意力以及自注意力来提升超分辨性能。 具体而 言,作为一种特征加权的增强方法,这些注意力可以捕获视频帧的时空特征并增强自适应性和通道间的依赖 性,实现全局学习的功能;同时,提出双阶段特征对齐思路,首先利用光流对视频进行估计,进行第一阶段的 特征对齐,然后引入长短是记忆网络结构增强位置和通道的特征融合,进行第二阶段的特征对齐,以防止恢 复的视频帧出现抖动。 实验结果表明:该方法在评估标准和可视化效果方面都取得了令人满意的效果。  相似文献   

13.
针对视频会话业务的实时性需求,提出一种轻量级深度学习网络模型实现视频图像的实时背景替换功能.网络模型包含语义分割和背景替换两个模块.语义分割模块整体架构采用编解码结构,编码端使用编码器模块、空洞卷积金字塔池化模块、注意力模块以及增益模块提取特征;解码端使用解码器模块、调整模块以及编码器模块恢复图像,再传入背景替换模块完成背景替换.该网络模型在本文设定的数据集训练后分割精确度达到94.1%,分割速度达到42.5帧/s,在实时性和准确性上达到较好的平衡,具有很好的实用效果.  相似文献   

14.
为了解决3D视频生成方法在获取深度线索方面的难题,使用显著图代替深度图进行3D视频生成。显著图和深度图在性质上有所不同,但是显著图是通过视觉注意力分析得到的,因此也可以给予人眼良好的感官体验。为了得到更适合进行视频内容转换的显著图,将时间信息融入到了深度学习模型当中。通过实验证明了本文方法在两个广泛使用的视频显著性数据集上拥有很好的表现力,所生成的3D内容也具有良好的视觉效果,证明了基于显著性检测的3D视频生成方法具有一定的可行性。  相似文献   

15.
为实现复杂场景下多尺度仪表检测,提出了一种基于注意力机制的视频多尺度仪表检测算法。首先,利用基于空间注意力机制的特征提取网络,建模特征的长距离依赖,增强特征的表达能力;其次,提出了一种自适应特征选择模块(Adaptive Feature Selection Module, AFSM),对不同阶段的特征图进行权重调整,增强网络对多尺度目标的检测能力。在自建的仪表数据集上进行了实验。实验结果表明,相比较原来的Faster RCNN方法,所提出方法的检测精度提高了7.6%;与对比方法相比,检测精度也能达到95.4%。在对实际仪表监测视频的测试中,检测结果以及速度能够满足实际需要。所提方法通过改进特征提取网络和特征选择操作,增强了特征表达能力,有效降低了虚警,提升了网络对多尺度目标的检测性能。  相似文献   

16.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

17.
经典的LSTM分类模型,一种是利用LSTM最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的输出信息,另一种没有体现每个时刻输出信息的不同重要程度.为了解决此问题,引入Attention机制,对LSTM模型进行改进,设计了LSTM-Attention模型.实验结果表明:LSTM分类模型比传统的机器学习方法分类效果更好,而引入Attention机制后的LSTM模型相比于经典的文本分类模型,分类效果也有了一定程度的提升.  相似文献   

18.
基于人工的物业投诉文件分类处理方法已经无法满足社会需求,并且已有投诉相关的自动分类方法在物业投诉分类问题上的性能较不足。因此,本研究提出一个基于MacBERT和联合注意力增强网络的物业服务投诉分类方法JAE-BERT4Com。JAE-BERT4Com使用基于近义词替换与合成少数过采样技术结合的样本增强策略解决类不平衡的问题,以及基于MacBERT的分层注意力、Transformers的多头注意力和关键词注意力等多重注意力联合增强的网络进行文本特征学习和分类。实验结果表明,JAE-BERT4Com能够获得比现有模型更高的准确率、F1分数和召回率,比现有较先进模型的性能更优。  相似文献   

19.
卢冰  李灿林  冯薛龙  宋顺  王华 《科学技术与工程》2022,22(27):12045-12052
为解决低照度条件下低分辨率图像的超分辨率重建问题,提出一种基于改进超分辨率残差网络(super-resolution residual networks, SRResNet)深度学习网络的低照度图像超分辨率重建方法。通过将读取的图像下采样、亮度降低等处理生成低照度低分辨率图像,并将该图像与高分辨率图像作为数据对输入学习模型,以便改进SRResNet的训练数据对的生成方式,优化训练过程,从而构建面向单帧低照度彩色图像的基于改进SRResNet训练的超分辨率重建方法。实验结果表明:与现有流行的图像超分辨率重建方法相比,该方法的峰值信噪比(peak signal to noise ratio, PSNR)、结构相似性(structural similarity, SSIM)指标整体为最优,低照度环境下的超分辨率重建图像更为清晰明亮、细节更丰富,该方法训练出的深度学习网络的重建效果更好。  相似文献   

20.
众所周知,不论是以阅读为主要特征的报刊文字新闻,或是以听觉为主要特征的广播新闻,还是以视觉图像为主要特征的电视新闻节目都是需要“写”的。与报刊新闻、广播新闻写作不同的是,电视新闻节目写作不仅仅是运用文字语言、文章体裁来述说新近发生的事实,还要运用图像语言和声音语言来表现新闻事实,是多种语言符号的综合运用。这就是电视新闻节目的文本写作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号