首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
设计了一种基于FPGA的目标检测算法的硬件加速器, 采用循环分块和循环展开的方式来优化卷积池化循环, 可以以任意并行度进行卷积和池化计算。使用一种基于AXI总线的数据重排序方式, 在不带来额外硬件资源开销的情况下, 对特征图进行重排序, 可以降低数据传输时间。将该硬件加速器部署至Xilinx ZCU 102开发板进行验证, 结果表明SSD算法前向推理性能为534.72 GOPS, 推理时间为113.81 ms。  相似文献   

2.
3.
卷积神经网络(CNN:Convolutional Neural Network)计算量较大,为达到快速处理数据的目的,需借助硬件手段进行加速.因此,利用现场可编程门阵列(FPGA:Field Programmable Gate Array)并行计算的架构特性,提出了基于FPGA的并行计算加速策略.该策略采用的具体方法包...  相似文献   

4.
针对目标检测系统对图像处理速度和信噪比要求高的问题,设计了一种基于现场可编程门阵列(Field programmable gate array, FPGA)的高速低噪声目标检测系统。首先,设计程序驱动CMOS摄像头传感器,采用同步动态随机存取内存(Synchronous dynamic random-access memory, SDRAM)进行实时存储,并利用乒乓存储实现存取速度的提高,然后对RGB像素数据进行灰阶化处理,提出一种由3*3快速中值滤波和4*4快速分权均值滤波相结合的双滤波算法,确保在减小数据边缘特征损耗的前提下去除系统随机噪声,通过Sobel边缘检测进行边缘特征提取,设计包围盒算法进行目标标定,最后通过视频图形阵列(Video graphics array, VGA)模块进行交互显示。测试结果表明,该系统具有图像处理速度快和检测精度高的优点,采用所提出的双滤波算法能比中值滤波、高斯滤波和均值滤波算法的平均信噪比高出约2.6倍。  相似文献   

5.
营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大多数都是基于面部关键点检测的算法,该类算法对面部视频的质量要求严格。在真实的营运行车环境中,夜晚光线过差,相机位置安装不理想,驾驶员面部遮挡等均会造成关键点检测失效,从而影响模型的准确性。基于卷积神经网络(CNN)和长短时记忆神经网络(LSTM)设计了一种端到端营运驾驶员疲劳检测模型,该模型以相机采集的驾驶员面部视频作为输入,使用CNN网络提取视频单帧特征,在此基础上将时序单帧特征作为LSTM网络的输入来最终识别驾驶员的疲劳状态,实验表明,模型的接收者操作特征曲线下面积(AUC)为0.9,远优于现有的面部关键点模型。此外,为了提高该模型在实际行车环境中的鲁棒性,基于光线变化及相机变化的模拟操作在训练数据上进行了数据增强,通过模型重训练进一步提高了模型的精度及鲁棒性。实验结果表明,改进前,营运车辆行车环境下模型的AUC相比实验室模型下降37.3%,而改进后AUC仅下降9....  相似文献   

6.
为了应对计算机视觉中多目标追踪任务的挑战。针对网络中使用的锚点造成重识别训练模糊的问题,通过可生成参考点的可变形Transformer,提出了一个端到端的多目标追踪系统(tracker Transformer,TKTR)。由骨干网络模块提取特征图,将其送入可生成参考点的可变形Transformer架构,以检测目标并生成代表检测框中心的参考点;利用参考点对候选目标进行空间位置约束并计算检测框的交并比来关联目标。实验结果表明,TKTR利用Transformer的查询特征向量对目标进行位置约束,提高了追踪精度,并且降低了ID切换的指标。  相似文献   

7.
针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。  相似文献   

8.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高...  相似文献   

9.
介绍了恒模多用户检测算法,通过对算法分析,建立了该算法的实现框架,给出了用FPGA技术实现该算法模块的方案。  相似文献   

10.
飞机座舱图形显示加速系统设计及FPGA实现   总被引:4,自引:0,他引:4  
提出一种飞机座舱综合显示系统中基于现场可编程门阵列(FPGA)的2D图形硬件加速引擎设计方案,将图形分解为一系列基本的点和水平线输出。为避免图形加速引擎直接对SDRAM的零碎操作导致的存储器操作瓶颈,引入图形缓存机制,并根据图形像素的存储特点,提出远区域优先(FAF)图形缓存页面淘汰算法。讨论图形加速引擎内部各模块的逻辑结构及其逻辑设计,在对模块进行波形仿真的基础上,实现系统级仿真结果的可视化验证。仿真及实际应用结果表明,所提出的图形加速引擎提高了图形显示性能,满足当前飞机中对2D图形实时显示及飞控系统的可靠性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号