首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于FPGA的SSD目标检测硬件加速器设计
引用本文:谢豪,曹健,李普,赵雄波,张兴.基于FPGA的SSD目标检测硬件加速器设计[J].北京大学学报(自然科学版),2022,58(6):1015-1022.
作者姓名:谢豪  曹健  李普  赵雄波  张兴
作者单位:1. 北京大学软件与微电子学院, 北京 102600 2. 北京航天自动控制研究所, 北京 100854
基金项目:国家自然科学基金(U20A20204)资助
摘    要:设计了一种基于FPGA的目标检测算法的硬件加速器, 采用循环分块和循环展开的方式来优化卷积池化循环, 可以以任意并行度进行卷积和池化计算。使用一种基于AXI总线的数据重排序方式, 在不带来额外硬件资源开销的情况下, 对特征图进行重排序, 可以降低数据传输时间。将该硬件加速器部署至Xilinx ZCU 102开发板进行验证, 结果表明SSD算法前向推理性能为534.72 GOPS, 推理时间为113.81 ms。

关 键 词:卷积神经网络  目标检测  硬件加速  现场可编程门阵列  ARM  
收稿时间:2022-01-13

A Hardware Accelerator for SSD Object DetectionAlgorithm Based on FPGA
XIE Hao,CAO Jian,LI Pu,ZHAO Xiongbo,ZHANG Xing.A Hardware Accelerator for SSD Object DetectionAlgorithm Based on FPGA[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2022,58(6):1015-1022.
Authors:XIE Hao  CAO Jian  LI Pu  ZHAO Xiongbo  ZHANG Xing
Institution:1. School of Software & Microelectronics, Peking University, Beijing 102600 2. Beijing Aerospace Automatic Control Institute, Beijing 100854
Abstract:A hardware accelerator of object detection algorithm based on FPGA is designed to accelerate the computation of SSD object detection algorithm. Loop tiling and loop unrolling are used to optimize the loops of convolution and pooling, and can be re-configurated in any parallelism. In order to reduce data transmission time, feature maps are reorganized based on AXI, without any hardware resource overhead. After implementing the hardware accelerator to Xilinx ZCU development board, it can accelerate SSD at a performance of 534.72 GOPS, and the inference time is 113.81 ms.
Keywords:convolutional neural network  object detection  hardware acceleration  field programmable gate array (FPGA)  ARM
  
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号