首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

2.
卷积神经网络是神经网络的一个分支,通过卷积神经网络可以完成对图像的卷积处理。然而在传统的CPU上,由于并行性不强,会导致计算速度很慢; FPGA由于其并行的特点,逐渐被用到卷积神经网络的图像处理领域。通过设计一套完整的基于FPGA的图像卷积处理方案,利用串口实现上位机与FPGA通信,实现了实时的图像卷积处理,与前人相比,在充分发挥FPGA的并行性以提升运算速度的同时,减小了带宽和资源占用,具有一定实用价值。  相似文献   

3.
针对目前卷积神经网络在小型化、并行化过程中遇到的计算速度不够、可移植性差的问题,根据卷积神经网络和FPGA器件的特点,提出了一种利用VHDL语言参数化高速通用卷积层IP核的设计方法。利用卷积层的计算方式,将卷积核心设计为全并行化、流水线的计算模块,通过在卷积核心的每一行连接FIFO的方式改善数据流入的方式,减少地址跳转的操作,并加入控制核心使其可以随图像和卷积窗口大小调整卷积层参数,生成不同的卷积层,最后将卷积层与AXIS协议结合并封装成IP核。结果表明,在50 MHz的工作频率下,使用2×2大小的卷积核对100×100的图像进行卷积计算,各项资源利用率不超过1%,耗时204μs,计算速度理论上可以达到最高5 MF/s。因此,设计方案在增加卷积模块可移植性的同时又保证了计算速度,为卷积神经网络在小型化器件上的实现提供了一种可行的方法。  相似文献   

4.
李同宇  任文平  贾赞 《科技信息》2009,(31):J0010-J0011
本文实现了基于FPGA的SOBEL算子图像边缘检测电路的设计。利用FPGA的流水线结构和并行阵列结构,由时序电路流水线读取数据,利用单行缓存并行输出产生SOBEL算子所需的3×3窗口数据,用加法运算替代乘法运算,实现SOBEL算子图像边缘检测系统的FPGA硬件电路构建。  相似文献   

5.
本文在FPGA芯片zynq7020上实现了一种基于Lenet-5卷积神经网络的AI芯片设计,采用了将卷积操作转换为矩阵乘法、并行计算、流水线计算等技术来加速CNN的运算速度,提高了片上系统性能,并利用该芯片,实现了对手写数字集MNIST的快速准确识别.实验证明,在分类准确率几乎相同的前提下,该AI芯片与ARM Cortex-A9 CPU在处理相同批量MNIST数据集时实现了大约22倍的加速.并且该AI芯片在实现CNN的设计时采用了Vivado软件编程替代传统的硬件语言,降低了软件开发人员开发FPGA的门槛.  相似文献   

6.
将卷积神经网络(convolutional neural networks,CNN)声学模型应用于中文大词表连续电话语音识别任务中,分析了卷积层数、滤波器参数等变量对CNN模型性能的影响,最终在中文电话语音识别测试中,CNN模型相比传统的全连接神经网络模型取得了识别字错误率1.2%的下降.由于卷积结构的复杂性,常规的神经网络加速方法如定点量化和SSE指令加速等方法对卷积运算的加速效率较低.针对这种情况,对卷积结构进行了优化,提出了2种卷积矢量化方法:权值矩阵矢量化和输入矩阵矢量化对卷积运算进行改善.结果表明,输入矩阵矢量化方法的加速效率更高,结合激活函数后移的策略,使得卷积运算速度提升了8.9倍.  相似文献   

7.
基于FPGA的流水线珠算加法器设计   总被引:1,自引:1,他引:0  
在图像处理、数字信号处理等领域需要用到大量加法运算,加法器运算性能对整个系统影响重大。根据操作模型原理,采用珠算算法设计了一个流水结构的并行高速硬件加法器,并在Xilinx Virtex-II的FPGA上实现了设计方案。在FPGA上集成8个处理单元完成并行计算,处理单元运用流水线结构,提高运算频率,并采用数据调度模块解决流水线上“数据相关”问题。仿真结果表明,32位珠算加法器平均运算仅需0.712ns,其速度是32位串行加法器的8.771倍,是32位并行加法器的1.588倍。这对于进一步优化实现硬件乘法器,甚至最终实现硬件除法器提供了研究空间。  相似文献   

8.
针对神经网络目标检测系统在硬件资源受限与功耗敏感的边缘计算设备中应用的问题,提出了一种基于现场可编程门阵列(FPGA)实现的YOLOv3-Tiny神经网络目标检测硬件加速系统. 利用网络结构重组、层间融合与动态数值量化,缩减YOLOv3-Tiny网络规模. 基于通道并行与权值驻留硬件加速算法、紧密流水线处理流程与硬件运算单元复用,提升硬件资源利用效率. 所设计的端到端目标检测加速系统被部署在UltraScale+ XCZU9EG FPGA上,达到了96.6 GOPS的吞吐量与17.3 FPS的检测帧率,功耗为4.12 W,并具有0.32 GOPS/DSP与2.68 GOPS/kLUT的硬件资源利用效率. 在保持高效准确目标检测能力的同时,硬件资源利用效率优于其他已有的YOLOv3-Tiny目标检测硬件加速器.   相似文献   

9.
针对高光谱图像含有上百个谱段数据、计算纯像元指数运算量大的问题,提出了一种现场可编程门阵列(FPGA)实现结构,该结构采用投影向量并行的矩阵运算策略,以减少接口的数据读取;在投影计算方面,提出了一种谱段并行的内积运算电路,以提高计算并行度,同时采用简化的投影向量以避免硬件中难以实现的浮点乘法运算.实验结果表明:对含有224谱段、分辨率为350×350的AVIRIS Cuprite高光谱图像,该结构在端元提取准确性方面优于ENVI软件和其他已有结构,对应的FPGA实现方案可以在10s内完成纯像元指数计算,满足星载/机载现场实时处理的要求.  相似文献   

10.
为了实现便携式实时处理的实用型脑-机接口(BMI),提出了一种基于概率神经网络(PNN)的锋电位信号实时分类算法,并完成了该算法基于现场可编程门阵列(FPGA)的实现.该算法通过训练数据的快速导入完成PNN的训练,再由PNN实现锋电位的分类工作.文中通过调用FPGA片上DSP48Es资源实现单精度浮点的乘加运算,采用并行流水结构加速向量间距离的计算,通过查找表和坐标旋转数字计算方法完成PNN激活函数的准确逼近.实验结果表明,在完成高达93.82%准确率的情况下,基于FPGA的PNN实现方法比基于Matlab的方法快47.43倍,达到了便携式实时处理的设计要求.  相似文献   

11.
当前,基于数字电路的脉冲神经网络硬件设计,在学习功能方面的突触并行性不高,导致硬件整体延时较大,在一定程度上限制了脉冲神经网络模型在线学习的速度。针对上述问题,文中提出了一种基于FPGA并行加速的高效脉冲神经网络在线学习硬件结构,通过神经元和突触的双并行设计对模型的训练与推理过程进行加速。首先,设计具有并行脉冲传递功能和并行脉冲时间依赖可塑性学习功能的突触结构;然后,搭建输入编码层和赢家通吃结构的学习层,并优化赢家通吃网络的侧向抑制的实现,形成规模为784~400的脉冲神经网络模型。实验结果表明:在MNIST数据集上,使用该硬件结构的脉冲神经网络模型训练一幅图像需要的时间为1.61 ms、能耗约为3.18 mJ,推理一幅图像需要的时间为1.19 ms、能耗约为2.37 mJ,识别MNIST测试集样本的准确率可达87.51%;在文中设计的硬件框架下,突触并行结构能使训练速度提升38%以上,硬件能耗降低约24.1%,有助于促进边缘智能计算设备及技术的发展。  相似文献   

12.
神经网络训练过程中的高昂计算代价是有待克服的一个主要困难。作者把前馈多层神经网络的相继各层看做流水线的相继步骤,从而提出了一个在MIMD机器上实现的并行BP算法来提高误差反传递算法的效率。文章的最后,对BP算法的并行实现进行了分析,理论分析结果显示,多种神经网络结构都可有效地并行化。  相似文献   

13.
卷积神经网络由于其强大的非线性表达能力在自然图像的处理问题中已经获得了非常大的成功。传统的稀疏表示方法利用精确配准的高分辨率多光谱图像,从而限制了实际应用。针对传统方法的不足,本文提出了一种基于深度残差卷积神经网络的单高光谱图像超分辨率方法,无需对应的多光谱图像。我们构建深度残差卷积神经网络挖掘低分辨率遥感图像和高分辨率遥感图像之间的非线性关系。构建的深度学习网络串联多个残差块,并去除一些不必要的模块,如批标准化层,每个残差块只包含两个卷积层,这样在保证模型效果的同时又加快模型的效率。此外,因为遥感图像训练数据缺乏,我们充分挖掘自然图像和高光谱图像之间的相似性,利用自然图像样本训练卷积神经网络,进一步利用迁移学习将训练好的网络模型引入到高分辨率遥感图像超分辨问题上,解决了训练样本缺乏问题。最后,基于实际的遥感数据超分辨实验结果表明,本文所提出的方法具有良好的性能,能得到较好的超分辨效果。  相似文献   

14.
A memory and driving clock efficient design scheme to achieve WCDMA high-speed channel decoder on a single XILINX' XVC1000E FPGA chip is presented. Using a modified MAP algorithm, say parallel Sliding Window logarithmic Maximum A Posterior (PSW-log-MAP), the on-chip turbo decoder can decode an information bit by only an average of two clocks per iteration. On the other hand, a high-parallel pipeline Viterbi algorithm is adopted to realize the 256-state convolutional code decoding. The final decoder with an 8×chip-clock (30.72MHz) driving can concurrently process a data rate up to 2.5Mbps of turbo coded sequences and a data rate over 400kbps of convolutional codes. There is no extern memory needed. Test results show that the decoding performance is only 0.2~0.3dB or less lost comparing to float simulation.  相似文献   

15.
在检测金属工件表面细微缺陷过程中,往往将工件的某些结构区域图形误检为缺陷。提出了一种基于多因子复杂度的结构误检区域排除算法;该算法先计算经过卷积神经网络检测之后框选的区域图像的复杂度,即综合计算信息熵,纹理特征及边缘比率的复杂度。根据实验设定合理的复杂度阈值,排除结构误检区域,保留真实缺陷。算法克服了卷积神经网络检测结果中存在一些结构区域的缺点,能够有效去除结构误检区域,并保留非误检区域,有较高的准确率,且计算速度能够达到工业流水线的实时性要求,具有实用价值。  相似文献   

16.
为加速遗传算法的进化过程和缩短其进化周期,探讨了将遗传算法融合神经网络进行离心叶轮形状优化设计的方法,即应用神经网格替代有限元法来完成结构优化设计中的静应力分析任务.同时,提出一种改进的前向反馈神经网络(BP算法),在训练过程中,学习率和动量项依据输出的均方差自适应调整,来加快网络训练速度和改善收敛性.采用混合神经网络的遗传算法对某离心压缩机叶轮进行优化设计,结果表明优化设计时间可缩短至单纯采用遗传算法的几十分之一,同时也验证了该方法的有效性和可行的。  相似文献   

17.
为克服前向过程神经网络收敛速度慢、精度低的问题,提出了一种改进的双并联动态过程神经网络,对于给定的全连接的过程神经网络,通过优化其连接权值和网络结构,删除冗余连接使之成为部分连接的过程神经网络系统,并给出了基于正交基函数展开的学习算法,从而降低了计算的成本。改进的双并联动态过程神经网络应用于旅游预测问题,结果表明其预测精度能够满足工程需要。  相似文献   

18.
针对驾驶员分心驾驶行为检测,设计一种级联卷积神经网络检测框架。检测框架由第一级分心行为预筛选卷积网络和第二级分心行为精确检测卷积网络两个全卷积网络级联构成。预筛选卷积网络是一个轻量级的图像分类网络,负责对原始数据进行快速筛选,其网络层数少、训练速度快,结构特征冗余较少,能够减少后续网络的计算负担;分心行为精确检测卷积网络采用VGG(Visual geometry group)模型特征提取的深度迁移学习检测算法网络,通过迁移学习重新训练分类器和部分卷积层。提出的级联神经网络最终可以实现9种驾驶员分心驾驶行为的准确识别检测。实验结果表明,相比主流单模型检测方法,在保证算法效率的同时准确率均有明显提升,准确率达到93.3%,有效降低了误检率。该方法具有较好的鲁棒性和泛化能力。  相似文献   

19.
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号