首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
当前,基于数字电路的脉冲神经网络硬件设计,在学习功能方面的突触并行性不高,导致硬件整体延时较大,在一定程度上限制了脉冲神经网络模型在线学习的速度。针对上述问题,文中提出了一种基于FPGA并行加速的高效脉冲神经网络在线学习硬件结构,通过神经元和突触的双并行设计对模型的训练与推理过程进行加速。首先,设计具有并行脉冲传递功能和并行脉冲时间依赖可塑性学习功能的突触结构;然后,搭建输入编码层和赢家通吃结构的学习层,并优化赢家通吃网络的侧向抑制的实现,形成规模为784~400的脉冲神经网络模型。实验结果表明:在MNIST数据集上,使用该硬件结构的脉冲神经网络模型训练一幅图像需要的时间为1.61 ms、能耗约为3.18 mJ,推理一幅图像需要的时间为1.19 ms、能耗约为2.37 mJ,识别MNIST测试集样本的准确率可达87.51%;在文中设计的硬件框架下,突触并行结构能使训练速度提升38%以上,硬件能耗降低约24.1%,有助于促进边缘智能计算设备及技术的发展。  相似文献   

2.
基于多核架构提出了一种适用于长期演进技术(LTE)下行链路128~2048/1536点快速傅里叶变换(FFT)计算的算法,并进行了仿真.利用多核结构将FFT算法进行并行划分,采用流水线并行和数据并行的结构,减少运行时间.同时将该算法基于一块使用TSMC 65nm工艺制成的多核芯片上实现,在750MHz的工作频率下,计算128~2048/1536点FFT的芯片实测功耗为282~366mW,能量效率为每点35.4~84.33nJ.与其他设计相比,运行速度最多能提高近6倍,计算大点数FFT时,能量效率可提高约20%.  相似文献   

3.
韩俊波 《科学技术与工程》2012,12(13):3121-3125,3138
针对高速数据传输的需求,提出一种基于前向纠错技术的并行光纤传输系统设计方案,提高高速数据传输的可靠性。系统采用FPGA自带的Rocket IO收发器硬核,结合RS(15,9)编解码,在Aurora协议的支持下实现高速数据传输。实验验证了设计方案的可行性。  相似文献   

4.
提出一种基于TMS320C6711的具有USB(通用串行总线)接口的高速数据传输的设计方案,对TMS320C6711和USB处理器AN2131Q的软硬件设计作了详细介绍.该设计方案很好地实现了TMS320C6711与PC机之间的USB高速数据传输.  相似文献   

5.
传统的线切割电源多为高能耗的电阻式脉冲电源,存在响应速度低、加工电流不稳定等问题,针对这些问题,提出了一种基于电感限流原理的高性能、低成本的节能型线切割脉冲电源的设计方案。首先,针对电阻限流型和电感限流型脉冲电源的工作原理进行了对比分析。在此基础上,对脉冲电源系统的结构进行了设计。其次,针对传统线切割机床加工效率与工件表面粗糙度之间存在固有矛盾的问题,分析了该问题的产生原因,并在此基础上对脉冲电源的驱动方案进行设计,提出了一种通用的高频分组脉冲产生方法。最后,研制了基于CPLD的数字控制系统,并对所提出的设计方案进行了实验验证,结果表明所提出的的脉冲电源设计方案具有工程应用价值,达到了预期的设计目标。  相似文献   

6.
基于有关因果关系复合的CommunicationClosedLayer理论,提出了一种结构化并行程序设计方法,以支持不同并行平台的“通用”并行程序设计方法.因果关系复合的范式定理的证明在理论上保证了采用“SEQOFPAR”形式进行结构化并行秩序设计的可行性;良好的代数性质也使得在这一模型中可采用代数方法的程序变换来进行并行程序设计、优化和验证.与其他并行程序设计模型和方法相比,提供了一种非常自然地综合描述数据并行和控制并行的途径;特别是基于代数变换的程序变换技术,提供了一种既独立于具体的体系结构又可高效实现的可能性.  相似文献   

7.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

8.
为了适应便携式应用场合卷积神经网络(convolutional neural network, CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.043 7×10~(-6),识别精度下降0.63%,运行速度提高7.67倍。  相似文献   

9.
高精度测井井深计量系统的研究   总被引:2,自引:0,他引:2  
井深位置和仪器上下行速度是测井作业中不可缺少的测量数据.提出了基于马丁代克传感器和现场总线(CAN总线)式的集成化测量系统设计方案,采用Lattice公司的CPLD芯片ispM4A5-64,设计了测井系统中马丁代克传感器的脉冲信号检测、计量电路和CAN总线数据传输电路,给出了电路设计图、仿真波形和测试结果.现场试验表明,该系统具有较高的测量精度,井深测量最大相对误差≤0.1%;而且提高了数据传输的可靠性,满足测井井深测量系统的设计要求.  相似文献   

10.
通过对X射线与物质相互作用后产生的散射能谱的分析,可实现物质原子序数的提取,并可用于核材料等违禁品的探测。然而,高能X射线的特性对探测系统的屏蔽和时间响应提出了要求。该文提出了一种能够对脉冲X射线的散射能谱进行采集的实验方案:以LaBr3(Ce)晶体为X射线探测器来实现<100ns的散射光子分辨时间,以减少在5μs脉冲出束时间内的脉冲堆积问题;利用120MHz/14位的高采样率ADC(analog-digital converter)电路来采集前放电路的输出脉冲波形,并设计相应的离线算法将该波形数据重建为散射能谱;设计了合适的屏蔽结构,减少了来自加速器靶点的直接透射X射线和环境散射X射线对探测器的影响。利用该方案对11种具有不同原子序数的物质进行了测量,得到了它们的散射能谱,在511keV峰能量分辨率可达到5%左右。  相似文献   

11.
地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加速效果不理想。Spark作为一种面向大数据处理的通用分布式并行计算技术,可以应用于并可简化地震数据处理算法并行化过程。借助于Spark的优势,通过两个实例讨论了基于Spark的地震数据重建并行化方法,提出了对于具有复杂输入输出组织数据方式的算法的并行化方法,提升了算法效率。研究成果为该类算法的Spark并行化开发提供了有益借鉴。  相似文献   

12.
针对水下三维传感器网络定位困难、传输损耗大等特性,提出了基于深度和能量的水下三维传感器网络分簇路由协议.在分簇过程中,根据水下节点到水面的深度、节点的剩余能量来选取簇头,普通节点根据其与簇头的深度差选择自身的簇头,形成适合水下数据传输的锥形簇结构.簇间数据传输考虑了水下节点数据传输向上(水面方向)和向内(以Sink节点垂线为柱心的方向)的原则,采用多跳传输保证数据由深水层向浅水层传递.仿真结果表明,该算法能有效均衡网络能耗,延长网络的生存周期,提高网络数据传输效率.  相似文献   

13.
为了进一步减少放大转发(Amplify and Forward,AF)策略下的单源中继协作通信系统的能量消耗,提出一种在近似高信噪比(Signal-to-Noise Ratio,SNR)条件下的基于能效的中继选择和功率分配方案。该方案中的能量消耗不仅包括了传输功率,还包括了信号处理所消耗的功率。区别于当前大多采用精确SNR公式进行中继选择研究的情况,该方案在满足所需数据传输速率以及传输功率受限的前提下,采用简单的近似高SNR公式,以能效最大化为准则推导出中继选择和功率分配的表达式,同时还重新设计了两跳中继系统中能量效率和频谱效率间的折中方法。仿真结果表明,所提出的中继选择方案相比其他方案能更有效地提高系统的能量效率,并且能达到能量效率与频谱效率间不错的折中效果。  相似文献   

14.
MPEG-2传输流再复用器的设计   总被引:6,自引:0,他引:6  
提出一套MPEG—2传输流再复用器的设计方案。该方案采用CAM RAM组合代替简单的RAM结构用于构造PID信息表,在保证速度的基础上,大大节约了资源;提出了“两步法”PCR校正算法,在保证节目时钟基准(PCR)校正精度的基础上,大大减小了硬件设计的复杂度;基于该再复用器,提出了MPEG—2传输流、纯数据、主控机插入等几种实用的数据插入方式,以适应不同的应用环境。  相似文献   

15.
为推动U型渡槽的结构优化设计更好地向智能化、自动化发展,建立了一套结合参数化有限元分析程序及智能优化算法程序的结构优化设计系统。基于自主研发的大型有限元通用程序HSNAP,开发了参数化建模程序模块,实现了渡槽三维设计模型的参数化描述;结合多核并行技术,编制了并行化鲸鱼优化算法程序进行优化计算。结合某灌区U型渡槽工程,以混凝土用量最低为优化目标,采用所提出的结构优化设计系统对渡槽结构尺寸参数进行优化,分析结果表明,与原设计方案相比,优化方案能够满足结构的安全要求,并具有显著的经济效益。  相似文献   

16.
结构动力分析显式积分并行算法与实现   总被引:2,自引:0,他引:2  
在分布式并行计算机环境下开展有限元并行算法研究是计算力学领域的前沿课题之一。基于区域分裂法,提出了结构动力分析两种形式的显式积分法的并行算法及步骤;同时,在用Transputer组成的分布式MIMD并行计算机上,采用3L并行Fortran编写了计算程序,并将其移植到串并行混合有限元分析软件PFEM中;最后,通过对三维空间钢架结构的实际分析,不仅验证了算法和程序设计的正确性,而且结果表明算法具有较高的并行效率。当2个和3个CPU工作时,并行效率分别为0.8和0.7。  相似文献   

17.
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.  相似文献   

18.
分布式虚拟实验室体系结构与仿真算法研究   总被引:1,自引:0,他引:1  
结合实际项目开发,对分布式虚拟实验宣的体系结构及仿真算法进行了相关研究。基于实时性考虑,采用Client/Server模式,以TCP/IP协议进行通信;通过在客户端放置局部数据库,服务器端放置全局数据库,来缩短系统的响应时间;服务器端采用多线程技术。来提高执行效率;使用真值表对芯片功能进行仿真,使用事件调度法对实验过程进行仿真。为了快速、逼真地模拟真实实验,系统采用Visual C++6.0、OpenGL和SQL Server 2000进行开发。以计算机组成原理实验为例,对提出的体系结构与仿真算法进行了验证;本设计同样也适合于通用的分布式虚拟实验室环境。  相似文献   

19.
基于片上网络(Network-on-Chip,NoC)技术的众核处理器正成为当前高性能处理器的设计焦点.传统的调试系统结构不能很好地应用于众核处理器体系结构,众核处理器中踪迹数据传输、调试事件传播、时间戳同步等方面均面临重大挑战.为解决上述问题,提出一种具有高带宽、低资源消耗的独立调试系统设计方法.该方法通过减少长互连线,提高了调试通道工作频率,以较少的互连线即可实现高带宽传输通道;同时调试组件采用分布式的对称结构,具有良好的可扩展性.在踪迹数据传输结构中,提出了一种带宽平衡的非侵入式踪迹数据导出方法,该方法通过软硬协同方式来配置踪迹通道仲裁的权重值,降低硬件复杂度.在调试事件的传播上,构建了与片上网络拓扑一致的事件传播网络,该网络在易于物理实现的同时具有事件传播延迟低的特点.在时间戳的同步方法上,提出了一种通过软硬件协同的时间同步方式,以很小的硬件代价实现了较精确的时间戳同步.  相似文献   

20.
基于USB接口的桩基无损检测系统   总被引:1,自引:0,他引:1       下载免费PDF全文
通用串行总线USB已成为PC的标准接口,它可以实现高速的数据传递。研究了USB接口的结构、特点和USB软硬件系统的开发方法,设计了基于USB接口的桩基无损检测系统。该系统具有功耗低、数据传输速率高、使用方便的特点,满足了工程的实际需要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号