首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
为了加速卷积神经网络(convolutional neural networks, CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array, FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing, DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×1012 OPs和1.15×109 OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。  相似文献   

2.
由于去块滤波运算数据量庞大的特点以及视频解码实时性的要求,近年来,去块滤波运算的硬件加速器已逐渐成为研究的热点。从兼顾系统的灵活性与性能的角度出发,设计了一种可重构去块滤波器。与传统的支持单一标准的去块滤波硬件加速器相比,该滤波器具有以下优点:实现了一种滤波算法可配置的滤波器结构,从而可以支持多个视频编码标准;采用了基于SIMD单指令多数据流技术,实现滤波数据全并行运算,使硬件高度规整,易于芯片布局布线;设计了1个4级可配置的流水线,重构为不同视频标准的去块滤波器,复用硬件资源,提高了硬件利用率和系统数据吞吐量。用这种架构实现了1个同时支持H.264、AVS、VP8、RealVideo 4种标准的多标准去块滤波加速器,时钟频率为200 MHz,能够用于多标准高清视频的实时滤波处理。  相似文献   

3.
本文提出了一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速.首先,我们采用了数据量化的方式将网络参数从浮点数转化为定点数,从而降低了加速系统所需的硬件开销;其次,提出了一种从FPGA端发起数据访问的系统架构,避免了系统运行中因处理器对FPGA频繁干预而引起性能下降的问题;最后,为CNN的计算设计了高效的数据处理和缓存电路,从电路层面保证了加速器的计算效率.本文以交通标志识别(TSR)为应用场景将上述加速方案进行了板级实现.测试结果显示,识别时间为49ms,其中单个乘法器提供了0.081GOPS的性能,性能功耗比达到了6.81GOPS/W.与近年来相关领域文献对比,可以看出本文提出的方案在资源和功耗受限的情况下可以提供更高的性能.  相似文献   

4.
针对计算机硬件方面数据存储、数据加工等难理解的知识,选取了一些能方便找到、价格便宜的芯片设计了一个“3+4-5”的综合实验,涉及对原始数据的存储,从存储器取数到运算器,控制运算器对数的加工,显示结果等步骤,通过该设计能让计算机学习者对计算机硬件理解更深入.  相似文献   

5.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

6.
针对5G LDPC编码因校验矩阵个数多、循环块大小取值多而导致编码器实现困难的问题,通过分析、优化由校验矩阵求取校验位的线性变换过程,提出一种面向片上系统(System-On-Chip, SoC)的编码器架构。在该架构下,编码器作为一个加速器,挂在主处理器的数据总线上。编码器包括控制器、基本图存储器、信息/校验位存储器、寄存器文件和3个运算器(移位器、求模器、加法器)。文中提出了基本图的存储方法和格式并对该编码器进行了FPGA实现。结果表明,该编码器具有低复杂度、中等吞吐率的特点。  相似文献   

7.
以光纤传感系统空间定位问题的研究为背景,探讨了互相关算法在大规模现场可编程门阵列(FPGA)的实现方案,设计出流水线操作的互相关运算器,并应用VHDL语言实现了互相关运算器.该互相关运算器在64 MHz的时钟下,能够对二路监测信号进行互相关处理,实时完成128点探测距离的互相关运算,为光纤传感系统的后续空间准确定位奠定了基础.利用大规模的FPGA硬件资源丰富特点,用硬件电路实现互相关运算,有效提高了数据处理速度,实现了数据检测的实时性,有效解决光纤干涉仪传感系统中空间信息稳定实时提取的难题.  相似文献   

8.
本文介绍了卷积神经网络(convolutional neutral network,CNN)系统中具有多位存储的三维阻变式存储器(three-dimensional resistive random-access memory,3D RRAM)的带符号位的浮点数运算. 与其他类型存储器相比,3D RRAM可以在存储器内部进行运算,且具有更高的读取速率和更低的能耗,为解决冯诺依曼架构的瓶颈问题提供新方案. 单个RRAM单元的最大和最小电阻分别达到10 GΩ和10 MΩ,可在多级电阻状态下稳定,以存储多比特位宽的数据. 测试结果表明,带符号位的浮点数的卷积运算系统的精度可以达到99.8%,测试中3D RRAM模型的峰值读取速度为0.529 MHz.   相似文献   

9.
为提高双线性对加密算法在密码芯片中的执行速度,设计并实现了1种面向双线性对加密运算的并行硬件处理架构.该架构中运算单元由2个同步运行的算术核构成,实现了对双线性对算法中有限域运算的并行处理,提高了硬件资源的复用率.设计采用Verilog HDL编码,并基于FPGA实现.与传统方案相比,该方案在满足安全性的条件下实现了较快的速度和较小的面积,能够满足安全密码芯片的应用要求.  相似文献   

10.
针对图像识别领域卷积神经网络(convolutional neural network, CNN)的计算需求,根据CNN的结构特点,设计出一种基于软件定义片上可编程系统(software defined system on chip,SDSoC)的加速器。首先通过修改CNN网络结构文件,选用修正线性单元(rectified linear unit, ReLU)作为激励函数,在虚拟机上训练出卷积神经网络的参数。最终完成一种占用硬件资源少,图像识别时间短和精度高的CNN硬件加速器。实验结果表明,与传统的CPU对比其识别精度提高至80%以上,消耗仅占其4.16%,识别时间从通用CPU的十几秒缩短至毫秒。资源消耗与识别时间都得到了很大程度的降低,为进一步加速提供了参考价值。  相似文献   

11.
FFT算法作为OFDM系统的核心算子占用其系统处理的大多数时间,为提高OFDM系统数据传输速度,提出了一种改进的多路并行流水线型基22FFT实现架构。在实现过程中着重对旋转因子的存储进行片上缓存优化,减少了乘法运算次数从而减小整体运算复杂度;设计的数据整合模块用于控制时序,从而保证P路并行流水型架构正确实现,数据运算吞吐率成P倍提高。RTL仿真结果表明,与同类架构相比,提出的架构在硬件开销适中的同时使得性能分别提升了127%、204%、5088%,并且具有FFT点数可扩展的特点,可满足随着通信标准的不断提高,FFT点数逐渐增大的实际应用需求。  相似文献   

12.
袁柳  李皓  李勐  涂吉 《科学技术与工程》2019,19(22):235-240
面向图像处理数据的高速传输和快速处理需求,设计实现了基于PCIe高速通信接口的图像处理系统。在Net FPGA SUME平台的基础上,借助Riffa PCIe架构实现中央处理器(central processing unit,CPU)和现场可编程门陈列(field-programmable gate array,FPGA)高速数据传输,充分发挥PCIe总线接口高效性、灵活性、可扩展、低延迟传输性能。设计统一图像处理和管理硬件接口,支持高效实现卷积神经网络(convolutional neural network,CNN)手写字符识别的FPGA加速处理。测试表明:PCIe传输速度可以达到2. 86 GB/s; CNN手写字符识别单张图片运行时间为1. 58 ms。研究结果可有效提升图像处理系统的数据传输和处理能力。  相似文献   

13.
针对应用在资源有限的物联网中的祖冲之(ZUC)256密码算法,本文介绍了一种资源优化的ZUC-256密码算法的硬件实现方案,设计了面向资源优化的循环型ZUC-256密码算法的硬件架构和基于块随机存取存储器(BRAM)的可重构S盒(S-box)单元,从而有效地降低了资源消耗。硬件方案在现场可编程逻辑门阵列(FPGA)上进行了硬件验证,结果表明本文资源优化的循环架构中的各个硬件开销相比已有的方案有明显的降低。  相似文献   

14.
研究一种低功耗语音降噪处理器,提高传声器信噪比和智能化程度.该降噪处理器采用专用指令集处理器内核+硬件加速器的异构多核架构,兼顾低功耗、运算效率和灵活性.专用指令集处理器内核为24-bit位宽、多级流水、双哈佛存储结构,定制专用语音加速指令和硬件,提升运算效率.硬件加速器负责密集、规整的时域/频域变换操作,采用可配置结构,保证硬件灵活性,并通过中断和共享存储器机制与专用指令集处理器内核通信.基于SMIC 130nm工艺完成该降噪处理器芯片设计,结果显示处理器完成语音降噪任务,背景噪声下降约10dB,平均电流仅206μA.  相似文献   

15.
可变2n点流水线FFT处理器的设计与实现   总被引:1,自引:1,他引:1  
设计一种可以连续计算N点复数序列傅里叶变换(FFT)的流水线结构处理器,其序列长度N(为2的幂)可变.流水线结构由乒乓存储器将基本运算模块级联而成,对输入数据的顺序以及流水运算的级数加以控制便可计算不同长度序列FFT.给出了由序列长度控制输入数据倒序、旋转因子寻址以及数据输出的实现方法.数据采用块浮点表示,提高了运算精度.用硬件描述语言VHDL在寄存器传输级(RTL级)进行描述,并在单片FPGA上实现.该芯片可工作在80 MHz,连续计算时,处理长度为1 024点的序列仅需12.8 μs.  相似文献   

16.
设计了一种应用于双载波正交频分复用(DC-OFDM)无线通信系统的高速、低功耗快速傅里叶变换(FFT)处理器.为降低传统并行架构带来的硬件实现开销,提出了一种新型的结合FFT分解的多路并行架构,有效减少了实现所需的乘法器和加法器数目,在提高处理器数据吞吐率的同时,进行了芯片面积的优化.另外,采用提出的处理单元实现不同的基运算,并对基-2、基-22、基-23、基-24不同架构下的定点FFT运算所需的硬件开销进行定量分析,以选择最优的基结构.最后,介绍了旋转因子乘法器的设计.设计实现的128点FFT处理器采用SMIC 0.13μm CMOS工艺,芯片面积为1.44 mm2,最大数据吞吐率达到1GS/s,在典型工作频率500MS/s下的功耗为39.5mW.与现有其他128点FFT处理器相比,减小了面积,节约了功耗.  相似文献   

17.
计算机处理器的可靠性设计非常重要.设计了三值光学处理器(ternary optical processor, TOP)三模冗余(triple module redundancy, TMR)光电表决系统,针对三值光学处理器运算单元设计了光电表决器,提出了在三值光学处理器上构建表决系统架构的具体步骤.对于一位的三值光学处理器,设计并测试了108个表决实验用例,并对m位的重构运算器的可靠性进行了简要分析.实验结果与可靠性分析表明,针对三值光学处理器进行三模冗余表决的方案,能有效提高系统的可靠性及运行效率.  相似文献   

18.
全加器是计算机中运算器最主要的逻辑单元,全加器的研究对理解整个计算机硬件系统具有极其重要的意义。本文对全加器进行详细分析并给出两个简单的加法例子说明加法运算的实现过程并总结了设计组合逻辑电路的步骤和方法,该方法对其他数字逻辑电路的设计具有一定的指导意义。  相似文献   

19.
通过分析分组密码算法中矩阵乘法运算的设计原理和特点, 结合逻辑电路结构特征, 提出一种可重构矩阵乘法硬件架构的设计原理及方法. 电路模拟结果显示, 按此原理设计的运算电路在保持运算电路高效性的同时, 提高了硬件电路的灵活性.  相似文献   

20.
根据一种运算方法设计一种运算器的基本原理 ,探讨了一种充分利用现代芯片技术完善CPU运算器性能的方法 .该设计方法不仅从理论上解决了除法运算中除得尽的问题 ,而且解决了用“准确”取代“精确”的问题 ,并可相应地提高运算速度  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号