首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 139 毫秒
1.
为了提高MP3编码运算速度,利用基于FPGA的硬件加速方式实现子带滤波算法.实验结果表明,采用FPGA实现子带滤波硬件加速器加速后,其编码速度是软件处理速度的4.06倍.  相似文献   

2.
设计了一种基于FPGA的目标检测算法的硬件加速器, 采用循环分块和循环展开的方式来优化卷积池化循环, 可以以任意并行度进行卷积和池化计算。使用一种基于AXI总线的数据重排序方式, 在不带来额外硬件资源开销的情况下, 对特征图进行重排序, 可以降低数据传输时间。将该硬件加速器部署至Xilinx ZCU 102开发板进行验证, 结果表明SSD算法前向推理性能为534.72 GOPS, 推理时间为113.81 ms。  相似文献   

3.
针对CPU进行图像处理已经无法满足系统实时性需求这一情况,提出了一种基于HLS和PYNQ的图像处理硬件加速器设计。该设计利用了FPGA具有数据并行处理的优势,克服了FPGA不易开发、移植性较差的缺陷。首先选择图像缩放处理算法作为实验的测试对象;然后在ZYNQ平台上根据软硬件协同的特点分配不同的系统任务,通过HLS开发工具使用C++实现和优化图像处理算法,并转化成RTL文件,再打包成IP核输出;在Vivado2018.3上搭建硬件实验平台,通过Jupyter Lab对实验进行验证和分析。结果表明,缩放算法的处理速度由CPU端的1 110 ms缩减为FPGA端的213 ms,执行速度提升了5倍。  相似文献   

4.
王伟  宫玉梅  曹征 《科技信息》2011,(22):I0253-I0255
可重构计算系统设计中把计算密集的代码用硬件加速器实现以提高系统性能已经成为一种常用的方法。但是在包含硬件加速器的系统中,程序员要了解硬件加速器的实现细节,控制硬件加速器的配置、软件和硬件模块之间的通信,这种不透明的编程方式影响了系统开发效率。本文提出了一个对程序员透明的软硬件协同编程模型,程序员可以像调用一个软件函数一样去使用一个硬件加速器,而把硬件加速器的配置、软硬件通信等操作交给操作系统和辅助硬件控制器实现。同时,该编程模型采用自重构技术即由嵌入式处理器控制完成动态重构,可支持动态调用多个硬件函数,使得多个硬件加速器可以分时复用硬件资源,从而提高系统资源利用率。  相似文献   

5.
针对动态直方图均衡(dynamic histogram equalization,DHE)算法处理效果不理想和算法应用不灵活的问题,提出了一种基于改进型自适应直方图均衡化算法的现场可编程逻辑门阵列(field programmable gate array,FPGA)硬件加速器的设计方法.该硬件加速器对直方图均衡化算法做了改进,实现了自适应地限制对比度拉伸;并且充分利用FPGA的并行体系架构和丰富的块存储资源的优点,采用规则的模块化的设计方法完成了设计.实验结果表明:改进的算法不会产生过度增强、放大噪声、丢失图像细节的现象;设计的硬件加速器在充分节约硬件资源的前提下能较好地满足实际应用的需求;在实时图像处理中一帧图像的处理时间约为0.1 ms,使图像增强算法在图像实时处理中的应用更加灵活方便.  相似文献   

6.
本文提出了一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速.首先,我们采用了数据量化的方式将网络参数从浮点数转化为定点数,从而降低了加速系统所需的硬件开销;其次,提出了一种从FPGA端发起数据访问的系统架构,避免了系统运行中因处理器对FPGA频繁干预而引起性能下降的问题;最后,为CNN的计算设计了高效的数据处理和缓存电路,从电路层面保证了加速器的计算效率.本文以交通标志识别(TSR)为应用场景将上述加速方案进行了板级实现.测试结果显示,识别时间为49ms,其中单个乘法器提供了0.081GOPS的性能,性能功耗比达到了6.81GOPS/W.与近年来相关领域文献对比,可以看出本文提出的方案在资源和功耗受限的情况下可以提供更高的性能.  相似文献   

7.
全景图像柱面展开理论算法占用系统资源较大,不适合在资源有限的嵌入式系统上实现,所以改善算法,设计一种基于嵌入式系统的算法有一定的现实意义,文中以柱面展开算法为理论依据,设计一种能在FPGA上实现的快速柱面展开算法.采用Matlab验证算法的可行性,然后采用硬件描述语言编写硬件模块,模块通过ModelSim仿真后,最终在硬件平台上实现FPGA对全景图像的快速柱面展开算法.  相似文献   

8.
为满足人脸识别系统的实时性,提出了一种基于FPGA硬件平台的人脸识别系统的实现方法。以传统的主成份分析算法为理论基础,利用Xilinx公司的System Generator开发环境实现算法的硬件逻辑。通过调试和仿真后,分析运算负荷和时序逻辑。结果表明,使用Spartan-3ADSP XC3SD3400AFPGA开发套件,在保证识别率的前提下,硬件实现的算法处理速度要远快于MATLAB中的算法实现。  相似文献   

9.
为了加速卷积神经网络(convolutional neural networks, CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array, FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing, DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×1012 OPs和1.15×109 OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。  相似文献   

10.
针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。  相似文献   

11.
提出了一种基于CORDIC算法的改进直接数字频率合成(DDFS)的实现方法,应用CORDIC算法替代了庞大的传统正弦函数ROM,输出高质量的信号。该方法使DDFS易于在FPGA等器件内实现。  相似文献   

12.
提出了一种基于CORDIC算法的改进直接数字频率合成DDFS的实现方法,应用CORDIC算法替代了庞 大的传统正弦函数ROM输出高质量的信号,该方法使DDFS易于在FPGA等器件内实现.  相似文献   

13.
介绍了一种基于DSP及FPGA的先进继电保护系统的设计.该系统以DSP及FPGA为核心,实现的保护测试功能齐全,可对电力系统的各类继电保护设备的多种技术参数(如电压、电流、频率、相角、阻抗及继电器动作时间等)进行测量和校验,并且通过USB实现与上位机的通信.  相似文献   

14.
研究JPEG 2000标准中自适应算术编码器的硬件实现问题, 提出一种适合ASIC实现的并行结构, 并在FPGA上对其进行了仿真验证.该设计使用VHDL语言在RTL级描述; 并以XILINX XC2V8000-5FF1152为基础, 在ISE 5.2下完成综合及后仿真.在整个JPEG 2000设计中, 最高工作时钟66 MHz, 自适应算术编码器处理速度可达到0.25 bit/cycle.  相似文献   

15.
在自适应滤波器的设计中,滤波阶数增加时,保持滤波器的吞吐量成为了设计的难点。文章根据最小均方(LMS)算法自适应FIR数字滤波器的基本原理,介绍了一种改进型分布式算法DA自适应FIR数字滤波器在FPGA中的设计方法。设计在QuartusⅡ中编译、仿真、综合后下载到Stratix FPGA中较好地解决了滤波器阶数增加与吞吐量之间的关系。  相似文献   

16.
利用可编程逻辑阵列(field programmble grate array,FPGA)技术实现副载频解调器的数字化处理,能较好地解决信号处理,提高解调精度。介绍了数字化副载频解调器的基本原理、设计方案和一种新的分布式算法(distributed arithmetic,DA),结合数字滤波器的特点,采用FPGA技术方法给予实现。用MAXPLUS软件对其进行了仿真,并对误差进行了较全面的分析。结果表明:利用FPGA技术实现数字化副载频解调器,既保证了通信的及时性、可靠性,提高了解调精度,又节约了大量资源,简化了系统结构。  相似文献   

17.
用FPGA实现FFT的研究   总被引:28,自引:5,他引:28  
目的 针对高速数字信号处理的要求,给出了用现场可编程门阵列(FPGA)实现的快速傅里叶变换(FFT)方案。方法 算法为按时间抽取的基4算法,采用递归结构的块浮点运算方案,蝶算过程只扩展两个符号位以适应雷达信号处理的特点,乘法器由阵列乘法器实现。  相似文献   

18.
蔡志健  丁爱萍 《江西科学》2005,23(6):784-787
硬件描述语言在深亚微米复杂数字系统的设计中具有独特的作用。利用硬件描述语言中的工业标准语言VHDL。设计了高速图像采集系统的硬件结构及工作原理,讲述FPGA在图像采集与数据存储部分的VHDL模块设计,给出采集同步模块的VHDL源程序。结果表明,VHDL在硬件设计上是非常有效的,在数字电子电路的设计中具有硬件描述能力强、设计方法灵活等优点。  相似文献   

19.
通过对RS码的原理和算法进行研究和比较,我们认为使用Berlekamp算法在利用FPGA设计RS编码器时占用的硬件资源较少.本文的重点部分说明应用Berlekamp算法设计编码器的方法和过程.  相似文献   

20.
在对传统MCS-51微控制器的局限性进行分析的基础上,提出了一种与其指令集兼容、性能大幅提高的可重用微控制器IP软核的设计。该控制器采用减少指令周期时钟数、独立总线访问、指令预读取等系统架构的优化及核心控制器架构的优化,使用新的加法和除法的算法,使性能得到大幅度的提高;在Altera FPGA上验证,该微控制器可稳定地工作在33.8 MHz时钟频率上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号