排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
A modified extended binary Euclid' s algorithm which is more regularly iterative for computing an inversion in GF(2^m) is presented. Based on above modified algorithm, a serial-in serial-out architecture is proposed. It has area complexity of O(m), latency of 5m - 2, and throughput of 1/m. Compared with other serial systolic arehiteetures, the proposed one has the smallest area complexity, shorter latency. It is highly regular, modular, and thus well suited for high-speed VLSI design. 相似文献
2.
杨景 《南京邮电大学学报(自然科学版)》1990,(2)
本文介绍亍脉动阵列算法的原理,给出了语音识别中进行模式匹配使用的动态规划算法和概率匹配算法的实现。这种结构对实时的大词汇量的孤立词或连续语音识别是十分有效的。 相似文献
3.
在拖曳线列阵声呐等场合,使用三角脉动阵列构成自适应阵处理器来抵消干扰源,正在受到人们的重视.本文给出了一种用DSP芯片TMS320C25构成的三角脉动阵列硬件结构和软件框图,并通过实验讨论了这种阵列处理器用于抵消单频干扰的能力,结论是:用TMS320C25这类芯片构成三角脉动阵列,可以获得较高的数据吞吐率,在声呐领域有广阔的应用前景. 相似文献
4.
基于FPGA的神经网络硬件实现方法 总被引:11,自引:0,他引:11
提出了一种可以灵活适应不同的工程应用中神经网络在规模、拓扑结构、传递函数和学习算法上的变化,并能及时根据市场需求快速建立原型的神经网络硬件可重构实现方法.对神经网络的可重构特征进行了分析,提出了三种主要的可重构单元;研究了可重构的脉动体系结构及BP网络到该结构映射算法;探讨了具体实现的相关问题.结果表明,这种方法不仅灵活性强,其实现的硬件也有较高的性价比,使用一片FPGA中的22个乘法器工作于100 MHz时,学习速度可达432 MCUPS. 相似文献
5.
为了解决同态加密方案加密所需时间太长的问题,文章基于改进的脉动阵列技术提出一种优化的硬件架构对GSW(Gentry-Sahai-Waters)全同态加密算法中的加密部分进行硬件加速。GSW全同态加密算法在不同的安全等级下选取的安全参数不同,若安全等级越高,则安全参数数值越大,对于所需的硬件资源开销也会越大。为了能够在有限的硬件资源中完成硬件设计,选取安全等级为20位,分别对位宽为2、4、8、10 bit明文数据进行加密,并将硬件设计所需加密时间与CPU加速该算法时间进行对比。另外,为了降低由于访问存储器带来的额外功耗以及提高数据利用率,提出一种数据拼接及复用方法,最终基于现场可编程逻辑门阵列(field programmable gate array, FPGA)硬件实现GSW全同态加密算法。实验结果表明,相比于软件实现,该设计方法可以缩短97.26%的加密时间。 相似文献
6.
本文给出一个基于代数变换的脉动阵列的自动综合系统,它能自动地将用FP 描述的并行算法程序变换成脉动算法的形式描述。这与以往的人为地借助于FP代数进行脉动阵列设计的ad hoc 的讨论不同.为了便于描写并行算法,首先扩充了原来的FP,引入了流递归方程和若干高阶算子.同时为了便于全自动的综合,对FP 的递归方程进行了限制,提出了结构递归方程.在此基础上,还给出了一个系统化的且可构造的脉动阵列自动综合的算法,包括递归方程的展开,规整结构的映射和同步机制的实现. 相似文献
7.
基于FPGA的活套高度和张力系统解耦控制器设计 总被引:1,自引:0,他引:1
针对板带热连轧机活套的高度和张力系统,在工作点附近,以实际热轧现场数据为依据,建立了对象的动态数学模型.采用基于BP神经网络整定的PID控制策略以减弱系统的耦合影响,并给出了其控制算法在FPGA上实现的方法,包括脉动阵列算法映射、数据表示及精度和运算部件设计.仿真结果验证了本算法的有效性和控制策略的适用性. 相似文献
8.
针对MUSIC(Multiple Signal Classification,多重信号分类)算法中的信号子空间和噪声子空间分离的硬件实现实时性需要,对矩阵特征值分解的Jacobi算法进行了并行改进,采用脉动阵列结构在FPGA(Field Programmable Gate Array)上高速并行实现了对数据协方差矩阵的特征值分解。采用矢量模式CORDIC算法和旋转模式CORDIC算法实现脉动阵列结构的细胞单元。系统字长选用16 bit定点数,采用硬件描述语言VHDL进行描述,在Altera公司的EP2S60中实现。整个特征值分解模块消耗24 372个FPGA中基本逻辑单元(LE),系统最高工作频率145 MHz,完成一次特征值分解的最低耗时为14.82μs。通过理论分析和实验验证,该实现方法精度高、速度快,大大提高了MUSIC算法的实时性,扩大了MUSIC算法的应用范围。 相似文献
9.
为了有效地支持神经网络中精度变化的权重参数的乘法计算,针对多种神经网络的参数位宽需求和单比特乘法器存在的性能下降问题,结合卷积计算中特征图复用的特点,提出基于精度可变乘法器的脉动阵列结构.将被多次使用的乘数的两比特积寄存在查找表中,从而将乘法操作转化为查表操作,设计支持偶数比特精度的两比特串行乘法器;基于该串行乘法器的处理单元作为脉动阵列的基本组成部分,在计算开始之前将特征图加载至相应位置,计算过程中完成乘累加计算和数据控制.相邻的处理单元局部连接可构成任意所需规模的脉动阵列.实验结果表明,基于Xilinx ZCU102现场可编程逻辑门阵列平台,提出的精度可变乘法器,相比于最先进的单比特乘法器,资源归一化性能提升1.8倍,并且在多种神经网络上的性能平均提升80%. 相似文献
10.
基于新型脉动阵列的RSA密码处理器 总被引:1,自引:0,他引:1
应用于RSA密码系统的蒙哥马利模乘法算法,在专用集成电路实现时可以采用脉动阵列结构。长比特(1024位以上)数据的全局信号传输和乘法器的动态分割问题,对于RSA密码处理器的速度提高是非常重要的因素。作者提出一种基于模块的全局信号广播策略,减少全局信号的影响:通过采用流水化的总线传送全局数据;通过移位寄存器传送控制信号以及用于连续的乘法的中间结果。除了全局时钟之外的信号都被限定在一个模块内部或者相邻的2个模块之间。中国剩余定理(CRT)的采用,将解密速度提高了近4倍,作者提出一种冗余结构,使得在采用CRT时乘法器可以有效的进行动态分割。 相似文献