首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文在FPGA芯片zynq7020上实现了一种基于Lenet-5卷积神经网络的AI芯片设计,采用了将卷积操作转换为矩阵乘法、并行计算、流水线计算等技术来加速CNN的运算速度,提高了片上系统性能,并利用该芯片,实现了对手写数字集MNIST的快速准确识别.实验证明,在分类准确率几乎相同的前提下,该AI芯片与ARM Cortex-A9 CPU在处理相同批量MNIST数据集时实现了大约22倍的加速.并且该AI芯片在实现CNN的设计时采用了Vivado软件编程替代传统的硬件语言,降低了软件开发人员开发FPGA的门槛.  相似文献   

2.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

3.
以在现场可编程门阵列(FPGA)上部署卷积神经网络为背景,提出了卷积神经网络在硬件上进行并行加速的方案.主要是通过分析卷积神经网络的结构特点,对数据的存储、读取、搬移以流水式的方式进行,对卷积神经网络中的每一层内的卷积运算单元进行展开,加速乘加操作. 基于FPGA特有的并行化结构和流水线的处理方式可以很好地提升运算效率,从对ciafr-10数据集的物体分类结果看,在不损失正确率的前提下,当时钟工作在800 MHz时,相较于中端的Intel处理器,可实现4倍左右的加速.卷积神经网络通过循环展开并行处理以及多级流水线的处理方式,可以加速卷积神经网络的前向传播,适合于实际工程任务中的需要.  相似文献   

4.
本文提出了一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速.首先,我们采用了数据量化的方式将网络参数从浮点数转化为定点数,从而降低了加速系统所需的硬件开销;其次,提出了一种从FPGA端发起数据访问的系统架构,避免了系统运行中因处理器对FPGA频繁干预而引起性能下降的问题;最后,为CNN的计算设计了高效的数据处理和缓存电路,从电路层面保证了加速器的计算效率.本文以交通标志识别(TSR)为应用场景将上述加速方案进行了板级实现.测试结果显示,识别时间为49ms,其中单个乘法器提供了0.081GOPS的性能,性能功耗比达到了6.81GOPS/W.与近年来相关领域文献对比,可以看出本文提出的方案在资源和功耗受限的情况下可以提供更高的性能.  相似文献   

5.
近年来卷积神经网络在图像分类、图像分割等任务中应用广泛.针对基于FPGA(Field Programmable Gate Array)的卷积神经网络训练加速器中存在的权重梯度计算效率低和加法器占用资源多的问题,设计一款高性能的卷积神经网络训练加速器.首先提出一种卷积单引擎架构,在推理卷积硬件架构的基础上增加额外的自累加...  相似文献   

6.
针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。  相似文献   

7.
为了解决卷积神经网络结构复杂,样本训练神经网络时间过长的问题,本文提出了采用分数阶理论优化卷积神经网络中的节点函数,使Sigmoid函数的收敛速度加快,在不影响卷积神经网络进行音频识别的正确率的前提下,减少了训练所需时间,达到提高整个神经网络的训练效率的目的。实验结果表明,在保证正确率的前提下该方法有效的减少了训练所花的时间,并可广泛应用于虚拟人运动控制系统中。  相似文献   

8.
针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于FPGA可编程逻辑器件的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST测试集的准确率高达99%,CIFAR10可实现80%,运算峰值能力为55.11 GFLOPS,综合性能约两倍于Intel Xeno E5-2640 V4服务器通用处理器,达到同期FPGA解决方案的主流水平。  相似文献   

9.
使用硬件平台实现卷积神经网络的计算可以获得良好的加速效果和功耗,但由于卷积神经网络模型庞大、计算复杂、硬件平台资源有限,在实际应用中多个卷积神经网络任务之间只能串行计算,这导致系统在处理多个任务时的实时性较差.为提升硬件系统的实时性,提出一种多卷积神经网络任务实时切换方法 .基于FPGA(Field Programmable Gate Array)平台进行卷积神经网络部署,根据功能划分系统模块.采用"任务序列+控制模块"的设计结构,控制系统根据卷积神经网络任务的优先级进行计算和切换;在计算模块中,复用可配置的卷积单元减少资源开销;提出一种多任务层级切换机制以提升系统的实时性.利用手写数字识别网络进行验证,实验结果表明:可配置的设计减少了除BRAM(Block Random Access Memory)外50%以上的资源开销;在50 MHz的工作频率下,FPGA的识别速度是CPU(Central Processing Unit)的4. 51倍,功耗比为CPU的2. 84倍;采用实时切换机制最快可使最高优先级任务提前57. 26 ms被响应,提升了串行计算系统的实时性.  相似文献   

10.
针对卷积神经网络中卷积计算时间复杂度高、同一电路计算不同尺寸卷积造成资源浪费的问题,本文提出一种具有可切换卷积计算结构的神经网络协处理器.协处理器由32位的专用指令控制,通过对不同结构神经网络的解析,生成相应的控制指令.卷积计算单元根据指令自动切换乘累加器结构或乘加树结构,对多个卷积计算单元进行组合提高了电路的并行性....  相似文献   

11.
基于FPGA的神经网络硬件实现方法   总被引:11,自引:0,他引:11  
提出了一种可以灵活适应不同的工程应用中神经网络在规模、拓扑结构、传递函数和学习算法上的变化,并能及时根据市场需求快速建立原型的神经网络硬件可重构实现方法.对神经网络的可重构特征进行了分析,提出了三种主要的可重构单元;研究了可重构的脉动体系结构及BP网络到该结构映射算法;探讨了具体实现的相关问题.结果表明,这种方法不仅灵活性强,其实现的硬件也有较高的性价比,使用一片FPGA中的22个乘法器工作于100 MHz时,学习速度可达432 MCUPS.  相似文献   

12.
为了加速卷积神经网络(convolutional neural networks, CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array, FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing, DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×1012 OPs和1.15×109 OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。  相似文献   

13.
14.
随着计算机算力的提升,深度学习的应用范围越来越广,深度学习模型的设计和调优变得困难,对于复杂模型,只对一层网络进行调整可能就导致差异显著的结果.众多研究者往往根据历史经验调参,进行了大量试错,耗费了大量的时间精力.为此根据卷积神经网络模型的数据特征,提出一种基于可视化的辅助调参的方法.通过可视化手段剖析卷积神经网络内部数据,分析其代表的信息,从而快速定位模型故障,实现有针对性地调参,降低了研究者在调参时的工作难度,提升了工作效率.  相似文献   

15.
为了提高智能车间生产流程优化等级,采用物联网监测智能车间生产情况,根据监测数据建立生产流程优化目标函数。建立基于最小完工时间和最小生产成本的双目标函数,获得物联网监测实时数据样本,采用卷积神经网络对数据样本进行训练,获得目标函数的最优参数,最后求解最小完工时间和最小生产成本。通过差异化设置卷积核尺寸,验证不同卷积核尺寸的完工时间和生产成本,选择适合生产流程优化的卷积核尺寸。通过最小完工时间和最小生产成本二维可视化,可获得生产流程最优值,将卷积神经网络算法和其他常用优化算法分别进行实例仿真。试验结果表明,该文算法优势明显,在生产流程优化方面适用性强。  相似文献   

16.
17.
卷积神经网络在各大领域都取得了不错的研究成果,并已成熟地应用于许多工业项目,俨然成为了未来人工智能的一种发展趋势.文章首先回顾了卷积神经网络的基本结构和原理,然后主要分析了内部的初始化参数、激活函数与损失函数的选择以及超参数设置对模型训练时间及准确率带来的影响,并在测试了所有的组合方式后挖掘出其中最优的模型.在TensorFlow平台上以MNIST数据集进行验证,其结果表明该模型在不同的需求下都取得了不错的训练结果.  相似文献   

18.
深度学习是目前机器学习领域最热门的研究方向,轰动全球的AlphaGo就是用深度学习算法训练的.卷积神经网络是用深度学习算法训练的一种模型,它在计算机视觉领域应用广泛,而且获得了巨大的成功.本文的主要目的有2个:一是帮助读者深入理解卷积神经网络,包括网络结构、核心概念、操作和训练;二是对卷积神经网络的近期研究进展进行综述,重点综述了激活函数、池化、训练及应用4个方面的研究进展.另外,还对其面临的挑战和热点研究方向进行了讨论.本文将为从事相关研究的人员提供很好的帮助.  相似文献   

19.
简要介绍Aihara混沌神经网络及数字化硬件实现的参数选择方法,并通过FPGA对其硬件实现。对所实现的混沌神经网络的输出状态进行分析,结果表明具有良好的混沌特性。  相似文献   

20.
基于FPGA的神经网络硬件可重构实现   总被引:1,自引:0,他引:1  
针对软件实现神经网络速度慢的缺点,介绍了一种神经网络在FPGA上可重构实现的设计方法.设计中依据成熟的BP算法公式,以一个三层的BP网络为例,利用Verilog HDL硬件语言自顶向下设计各个模块,使网络训练时将前向模块、误差反传模块和相应的控制模块同时配置到FPGA中进行网络训练;而当训练好的网络正常工作时,只在FPGA中配置前向模块和相应的控制模块就可以高速运行该神经网络.实验结果表明,该系统结构能极大地提高BP网络的学习速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号