期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李小燕张欣闫小兵任德亮李彦青傅长娟《河北大学学报(自然科学版)》2019,39(1):99

以在现场可编程门阵列(FPGA)上部署卷积神经网络为背景,提出了卷积神经网络在硬件上进行并行加速的方案.主要是通过分析卷积神经网络的结构特点,对数据的存储、读取、搬移以流水式的方式进行,对卷积神经网络中的每一层内的卷积运算单元进行展开,加速乘加操作. 基于FPGA特有的并行化结构和流水线的处理方式可以很好地提升运算效率,从对ciafr-10数据集的物体分类结果看,在不损失正确率的前提下,当时钟工作在800 MHz时,相较于中端的Intel处理器,可实现4倍左右的加速.卷积神经网络通过循环展开并行处理以及多级流水线的处理方式,可以加速卷积神经网络的前向传播,适合于实际工程任务中的需要. 相似文献

2.

基于Winograd算法的高效神经网络加速器及FPGA实现

王帅帅陈强郭剑博肖昊《合肥工业大学学报(自然科学版)》2023,(12):1659-1665

为了加速卷积神经网络(convolutional neural networks, CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array, FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing, DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×10¹² OPs和1.15×10⁹ OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。相似文献

3.

一种基于FPGA的通用卷积神经网络加速器的设计与实现

李沙沙李夏禹刘珊珊赵晓冬俞军《复旦学报(自然科学版)》2022,61(1):69-76+84

针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点：第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。相似文献

4.

基于FPGA的卷积神经网络训练加速器设计

孟浩刘强《南京大学学报(自然科学版)》2021,(6):1075-1082

近年来卷积神经网络在图像分类、图像分割等任务中应用广泛.针对基于FPGA(Field Programmable Gate Array)的卷积神经网络训练加速器中存在的权重梯度计算效率低和加法器占用资源多的问题,设计一款高性能的卷积神经网络训练加速器.首先提出一种卷积单引擎架构,在推理卷积硬件架构的基础上增加额外的自累加... 相似文献

5.

基于FPGA的多卷积神经网络任务实时切换方法

赵子龙赵毅强叶茂《南京大学学报(自然科学版)》2020,(2):167-174

使用硬件平台实现卷积神经网络的计算可以获得良好的加速效果和功耗,但由于卷积神经网络模型庞大、计算复杂、硬件平台资源有限,在实际应用中多个卷积神经网络任务之间只能串行计算,这导致系统在处理多个任务时的实时性较差.为提升硬件系统的实时性,提出一种多卷积神经网络任务实时切换方法 .基于FPGA(Field Programmable Gate Array)平台进行卷积神经网络部署,根据功能划分系统模块.采用"任务序列+控制模块"的设计结构,控制系统根据卷积神经网络任务的优先级进行计算和切换;在计算模块中,复用可配置的卷积单元减少资源开销;提出一种多任务层级切换机制以提升系统的实时性.利用手写数字识别网络进行验证,实验结果表明:可配置的设计减少了除BRAM(Block Random Access Memory)外50%以上的资源开销;在50 MHz的工作频率下,FPGA的识别速度是CPU(Central Processing Unit)的4. 51倍,功耗比为CPU的2. 84倍;采用实时切换机制最快可使最高优先级任务提前57. 26 ms被响应,提升了串行计算系统的实时性. 相似文献

6.

基于FPGA的多路温度测量系统

包明施帮利胡顺仁蒋玲《西南师范大学学报(自然科学版)》2005,30(3):469-473

讨论了一种以FPGA为核心的多路温度测量系统、该系统能进行单路定时和多路循环温度测量;以及测量数据的存储和异步传送;并具有高集成度、高速和高可靠性的特点. 相似文献

7.

一种可扩展高速FPGA嵌入式ECC电路设计

叶海江来金梅《复旦学报(自然科学版)》2014,(4)

针对当前现场可编程门阵列(FPGA)嵌入式帧检错与纠错(ECC)电路速度低、可扩展性差的不足,设计了一种新型可扩展的高速流水线型帧ECC电路.它充分利用FPGA回读数据的特征,在FPGA回读数据的同时完成单帧数据的ECC校验,不占用额外的存储资源.每一级流水线的延时相对于整个FPGA配置电路的延时而言是非常小的,不会影响到整个FPGA配置电路的速度.实验结果表明,和Xilinx设计的ECC电路相比,本设计的平均最高工作频率是其1.5倍,平均资源占用率仅为其10%.此外,该帧ECC电路具有良好的扩展性,通过调整流水线的级数就能够很好地适应FPGA配置位流结构的改变. 相似文献

8.

基于FPGA的自动售饮料控制系统的实现

付扬《北京工商大学学报(自然科学版)》2005,23(2):23-25

介绍了基于FPGA的自动售饮料控制系统的功能、设计思想和实现.该设计采用EDA自上而下的层次化设计,根据所要完成的功能,整个设计为15个模块图形连接而成,各子模块采用VHDL或图形法设计.使用Max+plus 软件实现编译、仿真等,最后成功下载到FPGA芯片EP1K30QCP208-3.由于FPGA具有高密度、可编程及有强大的EDA软件支持等特点,所以该设计具有功能强、灵活和可靠性高等特点,具有一定的实用价值. 相似文献

9.

基于FPGA的SDI接口的设计与实现

杨帆张宝峰佘单兵《天津理工大学学报》2008,24(3)

串行数字接口(Serial digital interface,SDI)是目前应用最广泛的视频接口,使用单根同轴电缆串行传输未经压缩的数字视音频信号.鉴于以往的SDI接口实现方法有成本高、灵活性低这些缺点,本文采用了一种基于FPGA的SDI接口设计与实现方法.主要阐述了SD SDI接口的设计思想,分析了接口的总体结构,并具体介绍了各个模块的功能.完成了部分主要功能模块的程序设计,并针对一种特殊数据输入情况,对编码解码模块建立仿真模型.仿真结果验证了特殊情况下数据恢复的正确性,进一步表明了一般数据输入时整体设计方案的正确性和可行性. 相似文献

10.

基于FPGA的DDS信号源设计与实现 总被引：9，自引：0，他引：9

高琴姜寿山魏忠义《西安工程科技学院学报》2006,20(2):210-214

利用DDS和FPGA技术设计一种信号发生器.介绍了该信号发生器的工作原理、设计思路及实现方法.在FPGA器件上实现了基于DDS技术的信号源,并可通过键盘控制其输出波形的各种参数,频率可控范围为100 Hz～10 MHz,频率调节步进为100 Hz,频率转换时间为25 ns. 相似文献

11.

印刷体数字识别系统的 FPGA 实现

高振斌赵盼王霞陈洪波《重庆邮电大学学报(自然科学版)》2015,27(2):213-218

为提高处理速度,构建了一种基于现场可编程门阵列(field programmable gate array,FPGA)的印刷体数字识别系统.该系统采用基于投影特征的字符分割和基于统计特征的字符识别原理,在Nexys-3硬件平台上完成了OV7670摄像头数据采集、图像预处理、字符分割与识别和结果显示的功能.在设计中,采取仅存储二值化图像的方法来降低系统对存储资源的需求,并使用乒乓操作进行存储从而达到实时处理的目的.为更合理地使用FPGA器件的内部资源,调用了片内数字时钟管理单元(digital clock manager,DCM)、乘法器、双端口RAM以及先入先出队列(first input first output,FIFO)等IP核(intellectual property core).最后在Modelsim中进行时序仿真,验证各个子模块的功能,并将各模块集成在开发板上进行硬件实现.通过对实验结果分析可知,该系统使用了较少的逻辑资源,在摄像头的帧速率为30 f/s的情况下,可以成功实时识别印刷体数字并将识别结果输出. 相似文献

12.

快速傅立叶变换处理器的现场可编程门阵列设计与实现

任喆郑紫微《大连海事大学学报(自然科学版)》2007,33(Z2):135-138

为满足现代数字通信和信号处理的运算速度要求,研究了基于现场可编程门阵列的快速傅立叶变换处理器的设计与实现方案.论文采用时域抽取算法,以VirtexⅡ系列XC2V40型号现场可编程门阵列芯片为硬件平台,以Xilinx公司ISE9.1为软件平台,采用VHDL硬件描述语言,进行了复数快速傅立叶变换处理器的设计与实现.仿真综合结果验证了设计的有效性. 相似文献

13.

基于可编程逻辑阵列的索贝尔边缘检测算法的两种实现方案

张海斌朱苏磊徐明亮《上海师范大学学报(自然科学版)》2017,46(2):247-253

基于可编程逻辑阵列(FPGA)的片上可编程及并行流水线具有处理快、实时性等优点,采用Quartus II自带知识产权(IP)核进行设计的方案耗资源多,处理速度慢,针对于此提出了改进的索贝尔(Sobel)算子方案,使以上缺点得到改善;结合Matlab和Modelsim对这两种方案的仿真和验证结果表明,改进后的Sobel算子方案明显优于Quartus II自带IP核进行设计的方案,并且能很好地实现图像边缘检测,减少了偏差. 相似文献

14.

BM 迭代算法的循环架构设计及实现

陈黎明邓林江王琳《重庆邮电大学学报(自然科学版)》2008,20(2):175-178

BCH码的译码问题主要归结为一个关键方程的解决,即错误位置多项式的求解,BM迭代算法自1966年由BerlekampMassey提出以来经过不断改进,已经成为解决这一问题的成熟算法。提出了一种适合硬件实现的BM迭代算法的循环架构设计,并在此架构下分别实现了基于BM迭代算法和其简化算法的二元BCH(15,5)的FPGA译码器,显示出这一循环架构易于模块移植的优点。仿真结果表明：码组中任意不大于3 bit的随机错误都可以给予纠正。相似文献

15.

基于现场可编程逻辑门阵列的超声波管道测厚

陈忠元陈娟邵芬红《北京化工大学学报(自然科学版)》2012,39(4):106-110

根据超声波基本原理以及现场可编程逻辑门阵列（FPGA）技术设计了超声波测厚仪及超声波轮式探头,并且实现了基于FPGA的信号处理的软件编程。对管径φ139.7mm,标称壁厚h7.72mm的标准样管的测量实验结果表明：本文所设计的系统可靠性好,抗干扰能力强,测量精度高,测量误差小于0.1mm。相似文献

16.

基于IP协议的FPGA万兆可靠互联通信设计与实现

下载免费PDF全文

宋宇飞张俊杰王凯李家齐薛子威郑玥《上海大学学报(自然科学版)》2015,21(5):570-578

近年来, 云计算和大数据处理迅猛发展, 现场可编程门阵列(field programmable gate array, FPGA)由于拥有独特的并行处理能力, 已在大数据处理中得到广泛应用. 而通信网络的好坏会直接影响大数据处理的性能, 基于此提出一种基于IP协议的FPGA万兆可靠保序互联通信系统, 基于三指针环形缓冲池以及并行序号管理实现线速万兆数据通信, 利用硬件超时重传机制实现可靠数据通信. 该系统与用户接口采用先进先出(first in first out, FIFO)队列方式, 接口简单; 采用IP协议进行通信, 使得通信协议开销较小, 具有良好的系统扩展性; 实际传输速率可达9.33 Gbit/s. 相似文献

17.

基于二维卷积的图像插值实时硬件实现

张辉胡广书《清华大学学报(自然科学版)网络.预览》2007,(6)

为了实时实现图像处理中的图像插值,提出了一种与具体插值算法无关的通用二维卷积器实现结构和一种使用两级缓存的图像数据存取结构。利用所提出的结构,设计了使用双三次插值的图像插值模块,在可编程逻辑门阵列上进行了实现。进行了图像实时放大的实验。实验结果表明:采用本结构,可以降低片上存储器的消耗,方便地实现比较复杂的插值,达到实时处理的目的。相似文献

18.

网络安全防护系统的研究与设计 总被引：1，自引：0，他引：1

吕良杨波陈贞翔《山东大学学报(理学版)》2009,44(9):47-51

提出了一种全新的基于服务器的网络安全防护系统的设计方式。采用服务器主机加NetFPGA板卡的架构,其中NetFPGA完成包过滤和内容检测功能,而配置、更新规则及入侵检测功能则在服务器端由软件实现。NetFPGA通过PCI接口与被防护主机联合工作,从而实现了防火墙与入侵检测的联动。结果表明在发现入侵之后可以更准确,更有针对性地做出反应。 相似文献