首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
卷积神经网络(CNN:Convolutional Neural Network)计算量较大,为达到快速处理数据的目的,需借助硬件手段进行加速.因此,利用现场可编程门阵列(FPGA:Field Programmable Gate Array)并行计算的架构特性,提出了基于FPGA的并行计算加速策略.该策略采用的具体方法包...  相似文献   

2.
3.
针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。  相似文献   

4.
近年来卷积神经网络在图像分类、图像分割等任务中应用广泛.针对基于FPGA(Field Programmable Gate Array)的卷积神经网络训练加速器中存在的权重梯度计算效率低和加法器占用资源多的问题,设计一款高性能的卷积神经网络训练加速器.首先提出一种卷积单引擎架构,在推理卷积硬件架构的基础上增加额外的自累加...  相似文献   

5.
为了实现实时高性能目标识别,设计了一种基于FPGA的互相关函数加速器.通过合理的硬件设计与逻辑复用,使互相关函数计算速度得到提升.实验结果表明,加速器可以高速完成互相关函数计算,满足实时高分辨率图像目标识别系统的需求.  相似文献   

6.
针对目标检测系统对图像处理速度和信噪比要求高的问题,设计了一种基于现场可编程门阵列(Field programmable gate array, FPGA)的高速低噪声目标检测系统。首先,设计程序驱动CMOS摄像头传感器,采用同步动态随机存取内存(Synchronous dynamic random-access memory, SDRAM)进行实时存储,并利用乒乓存储实现存取速度的提高,然后对RGB像素数据进行灰阶化处理,提出一种由3*3快速中值滤波和4*4快速分权均值滤波相结合的双滤波算法,确保在减小数据边缘特征损耗的前提下去除系统随机噪声,通过Sobel边缘检测进行边缘特征提取,设计包围盒算法进行目标标定,最后通过视频图形阵列(Video graphics array, VGA)模块进行交互显示。测试结果表明,该系统具有图像处理速度快和检测精度高的优点,采用所提出的双滤波算法能比中值滤波、高斯滤波和均值滤波算法的平均信噪比高出约2.6倍。  相似文献   

7.
针对卷积神经网络中卷积计算时间复杂度高、同一电路计算不同尺寸卷积造成资源浪费的问题,本文提出一种具有可切换卷积计算结构的神经网络协处理器.协处理器由32位的专用指令控制,通过对不同结构神经网络的解析,生成相应的控制指令.卷积计算单元根据指令自动切换乘累加器结构或乘加树结构,对多个卷积计算单元进行组合提高了电路的并行性....  相似文献   

8.
针对神经网络目标检测系统在硬件资源受限与功耗敏感的边缘计算设备中应用的问题,提出了一种基于现场可编程门阵列(FPGA)实现的YOLOv3-Tiny神经网络目标检测硬件加速系统. 利用网络结构重组、层间融合与动态数值量化,缩减YOLOv3-Tiny网络规模. 基于通道并行与权值驻留硬件加速算法、紧密流水线处理流程与硬件运算单元复用,提升硬件资源利用效率. 所设计的端到端目标检测加速系统被部署在UltraScale+ XCZU9EG FPGA上,达到了96.6 GOPS的吞吐量与17.3 FPS的检测帧率,功耗为4.12 W,并具有0.32 GOPS/DSP与2.68 GOPS/kLUT的硬件资源利用效率. 在保持高效准确目标检测能力的同时,硬件资源利用效率优于其他已有的YOLOv3-Tiny目标检测硬件加速器.   相似文献   

9.
针对传统卷积神经网络对远距离视频目标识别效果差的原因,本文提出一种改进的基于SSD卷积网络的视频目标检测模型.首先,对数据集进行剪裁,旋转等预处理,提高网络检测泛化能力,其次,采用coco数据集Mobilenet_SSD预训练模型,由于其具有轻量级网络模型特点,减少计算开销,减少内存占用量.然后,再结合voc2012数据集进行二次训练微调处理,加快训练收敛速度,使用自定义数据集能有效检测特定场景目标,能够有效识别远距离场景下视频目标物体.实验结果表明,改进的网络检测模型适用于远距离目标检测,减少计算量,降低硬件内存资源消耗,提高网络模型性能和检测精确度,具有较好的鲁棒性.  相似文献   

10.
一种基于FPGA+ARM的高速电力谐波检测仪硬件的设计与实现   总被引:1,自引:0,他引:1  
介绍了一种结合FPGA硬逻辑的高速数据处理能力和ARM的高效数字功能扩展能力,实现实时高速电力谐波检测的"FPGA+ARM"硬件新构架.这种新架构采用复用逻辑及流水线技术在FleA上实现了A/D采样控制、加窗、FFT及模平方等运算.采用uClinux为操作平台在ARM处理器完成对FPGA的现场配置、数据通信处理及人机交互接口等功能.实际应用表明,这种架构可较好地解决电力谐波检测中的"实时性与精确度的矛盾".  相似文献   

11.
讨论了一种以FPGA为核心的多路温度测量系统、该系统能进行单路定时和多路循环温度测量;以及测量数据的存储和异步传送;并具有高集成度、高速和高可靠性的特点.  相似文献   

12.
图形裁剪是计算机图形学的基本内容,现有的图形裁剪算法大多都针对基本的图形元素———直线进行裁剪,在此基础上,出现了大量研究多边形裁剪的算法.象素级图形裁剪以基本的图形元素———象素为单位,介绍了象素级图形裁剪算法的基本思想和实现过程,在研制的图形显示系统平台上,提出了一种采用FPGA硬件实现象素图形裁剪的新方法,它适合于任意窗口,具有通用性;同时,这种硬件实现的图形裁剪与纯软件实现的算法相比,在裁剪速度上具有明显的优势.  相似文献   

13.
以在现场可编程门阵列(FPGA)上部署卷积神经网络为背景,提出了卷积神经网络在硬件上进行并行加速的方案.主要是通过分析卷积神经网络的结构特点,对数据的存储、读取、搬移以流水式的方式进行,对卷积神经网络中的每一层内的卷积运算单元进行展开,加速乘加操作. 基于FPGA特有的并行化结构和流水线的处理方式可以很好地提升运算效率,从对ciafr-10数据集的物体分类结果看,在不损失正确率的前提下,当时钟工作在800 MHz时,相较于中端的Intel处理器,可实现4倍左右的加速.卷积神经网络通过循环展开并行处理以及多级流水线的处理方式,可以加速卷积神经网络的前向传播,适合于实际工程任务中的需要.  相似文献   

14.
基于FPGA的欧洲应答器编码实现   总被引:1,自引:0,他引:1  
应答器作为车地间信息传输的方式之一,在列车运行控制系统中有广泛的应用,欧洲列车控制系统(ETCS)就利用欧洲应答器(EUROBALISE)来实现车-地间的通信.本文在EU-ROBALISE编码原理的基础上,设计了一种利用现场可编程逻辑门阵列(FPGA)来实现EU-ROBALISE实时编码的方法,在MAX PLUS Ⅱ平台上应用VHDL硬件描述语言进行了仿真分析,最后的验证结果表明设计正确,达到了预期的目的.  相似文献   

15.
在雷达自适应检测中,一维恒虚警率(CFAR)处理器只能在单一维度进行目标检测.因此基于一维CFAR算法提出一种在现场可编程门阵列(FPGA)上实现的二维双向CFAR处理器结构.该结构同时考虑了距离维和多普勒维的检测信息,提高了检测精确度.该处理器支持CA、GO、SO、OSCA、OSGO、OSSO等6种CFAR检测算法可选,支持参考单元数量、保护单元数量、排序值、门限因子可配置,可在多种杂波环境下应用.实验结果表明,当信噪比为12 dB时,6种检测算法检测概率均在80%以上;该处理器的最大综合时钟频率为137 MHz,使用的逻辑单元远小于FPGA资源,可以满足工程实际应用要求.   相似文献   

16.
针对复杂场景下目标跟踪算法存在的跟踪目标丢失漂移等问题,提出一种粒子滤波框架下基于卷积神经网络(convolutional neural network,CNN)的目标跟踪算法.该算法采用CNN提取跟踪目标的高层语义特征,并引入离线训练方式,提高训练效率以及特征提取的泛化能力;利用粒子滤波算法框架,实现目标运动状态的有效估计;同时采用长时与短时两种更新策略,并引入困难样本挖掘的在线训练方式,以适应目标外观变化与背景干扰等复杂情况.仿真实验结果表明本文算法能有效适应遮挡、光照、剧烈运动等场景.与多个当前的跟踪算法在公开测试样本下进行了结果比较和分析,验证了本算法在解决跟踪目标丢失漂移等问题上的有效性.   相似文献   

17.
信息化产业的迅速发展促使视频图像处理技术广泛应用于各种领域,Philips公司生产的增强型视频输入处理芯片SAA7111A在图像处理前端实现了AD转换和解码的功能,该文介绍了该芯片的功能,并给出利用该芯片实现视频图像处理功能的FPGA板的软硬件设计方法。  相似文献   

18.
应用DSP处理器,设计了一个基于FPGA的实时图像处理系统,通过对此系统的分析表明,用FPGA与高速数字信号处理算法的结合,可以实现系统对图像进行实时处理的要求.  相似文献   

19.
描述了一种1024×768高分辨率实时视频图像数据处理的方法。由于高分辨率的视频流数据量大,又要进行实时显示,对于这样大的数据量必定要求大容量存储器来进行缓存; SDRAM存储量大,价格低廉,非常适于本系统。分析了设计中所用的SDRAM性能、特点,给出了SDRAM初始化方式及其相应的模式设置值,并根据本设计的实际情况对SDRAM状态机进行了简化,给出了一种相对容易实现的SDRAM状态机。为了实现快速实时的视频传输数据,使用了两片SDRAM进行读写切换,以写满写SDRAM为切换的标志,这样保证图像数据实时显示。并在相应的硬件电路上做了彩条实验,证明控制器操作的可行性。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号