首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
FPGA实现高速加窗复数FFT处理器的研究   总被引:7,自引:1,他引:7  
研究采用FPGA设计高速专用FFT处理器的实现方法,使处理器能对复数数据顺序进行加窗、FFT及模平方运算.本设计具有4个特点:设计实现了只用一个运算单元进行以上3种运算的方案,有效地节省了逻辑资源;采用流水方式提高了系统的处理速度,使通信、计算、存储等操作协调一致;采用块浮点算法使系统兼有定点运算速度高与浮点运算精度高的特点;采用TMS存储模式,降低了对外围电路的速度要求.该设计方法可以广泛应用于高速数字信号处理领域.  相似文献   

2.
ARM11 MPCore性能分析与优化研究   总被引:4,自引:4,他引:0  
ARM11 MPCore是最新的嵌入式多核处理器,传统的嵌入式软件在该平台上不能发挥该处理器的所有性能.针对这个问题,对ARM11 MPCore的基本运算能力与ARM9处理器进行了对比分析,提出了使用硬件向量浮点单元及并行计算的软件优化方法,实验结果表明优化后的MPCore浮点处理能力是ARM9系列处理器的浮点处理能力的10倍左右.对于多核架构,可以采用并行计算模型对软件进行优化,试验结果表明,对整数运算采用OpenMP并行计算模型优化后,实验程序的效率提高3.8倍左右.对于嵌入式多媒体处理,提出了使用硬件向量浮点单元对DCT运算进行优化,对视频解码、音频解码以及音视频同步显示采用并行处理的方法进行优化.实验结果表明,这两种优化方法能提高软件在ARM11 MPCore平台上的运行效率,提高了系统的整体性能.  相似文献   

3.
针对高性能计算中非规则寻址模式任务的加速需求,文章设计了一种指令级动态可重构浮点处理器(dynamically reconfigurable floating-point processor, DRFP),区别于传统的可重构处理器,引入一种基于融合指令的实现方式,使得该处理器兼具动态重构和乱序执行能力。该处理器作为主要计算核心集成于一款异构多核系统芯片,并在Xilinx Ultrascale系列xcvu440的FPGA芯片上进行了原型验证,系统可以稳定工作在120 MHz。实验结果表明,该处理器在兼顾高性能的同时相较于已有工作能更好地适应非规则运算,且性能提高近3倍。  相似文献   

4.
可重构视频编解码处理器ReMAP设计   总被引:1,自引:0,他引:1  
针对当前视频高清编解码的计算密集性、并行性和数据局部性的特点,提出一个粗粒度的可重构处理器ReMAP-2.该处理器由一个可重构的计算单元阵列构成,通过由临近直联和分段式总线组成的互联网络完成数据通信任务,具有良好的扩展性.计算阵列针对不同应用,通过加载不同配置信息流实时改变运算单元的计算功能和连接方式,支持多种格式的视...  相似文献   

5.
采用阵列处理器的设计方法,提出了一种基于单指令多数据技术的可重构处理器.通过在ReMAP原型芯片实现二维离散余弦变换算法,重新设计乘法累加器、增加局部数据寄存器、增加处理单元间共享寄存器和分层次传输处理单元内数据,提出优化的ReMAP架构,并在现场可编程门阵列上完成功能验证.在Re-MAP架构上实现二维离散余弦变换以及绝对误差和的结果表明,优化的ReMAP架构支持多个算术逻辑单元,充分利用媒体算法的内在并行性,获得了较高的性能加速比.ReMAP架构的可扩展性可进一步提高性能加速比,满足媒体处理的应用.  相似文献   

6.
基于FPGA的快速浮点除法器IP核的实现   总被引:1,自引:0,他引:1  
利用Altera的Quartus II软件开发平台在FPGA上实现了快速浮点除法器IP核的设计.该IP核的算法采用存储运算过程中的一些乘积项,有效地减少了除法运算过程中的移位操作,提高了浮点除法的运算速度及算法的效率.同时,基于FPGA的浮点除法器IP核具有很好的可移植性和复用性,适合应用到各种嵌入式和通用处理器中,从而提高复杂数字系统的设计效率,具有广泛的推广应用价值.  相似文献   

7.
为提高椭圆曲线加密运算的速度,提出了一种多项式基表示的GF(2m)域高效标量乘加速器结构.该结构对面积和性能进行了合理的权衡,采用点加、倍点模块并行运算以提高速度;为了减少面积采用并行和串行相结合的方法对点加和倍点模块进行优化,初始化和最后的坐标变换求逆模块通过优化分解成一系列乘和加运算,合并在一个模块中用串行结构实现.采用Xilinx公司的VirtexE XCV2600 FPGA硬件实现结果表明,完成有限域GF(2163)上任意椭圆曲线上的一次标量乘的全部运算时间消耗为36.5μs,适合高性能椭圆曲线加密应用的要求.  相似文献   

8.
针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于可编程逻辑器件(FPGA)的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST-LeNet测试集的准确率高达99%,CIFAR-10可实现80%,浮点运算速度为5.511×1010 s-1,综合性能约两倍于Intel Xeno E5-2640V4服务器通用处理器,达到同期FPGA解决方案的主流水平。  相似文献   

9.
提出了一种基于动态模式匹配的配置信息压缩方法及其硬件实现方案,通过去除配置信息中的冗余,提升了粗粒度可重构处理器的重构性能.基于SMIC 40 nm工艺,完成了所述优化方案的电路实现与验证,系统工作主频为500 MHz.针对雷达应用核心算子的实验结果表明,所提的可重构架构优化方法使雷达应用算子配置信息量缩减了60%以上,相比SIMD压缩方法高出近50%.此外,所提方法的解压缩时间仅需6 ns,其解压缩性能优于SIMD压缩方法和字典压缩方法.  相似文献   

10.
文章在分析Givens分解、上三角矩阵求逆及三角矩阵乘特征的基础上,提出了针对高密度复杂信号处理的原位替换并行矩阵求逆方法,并设计实现了基于此方法的矩阵求逆硬件加速器。该硬件加速器可以实现128阶以内任意2n阶单精度浮点实数矩阵的求逆运算,与2GHz的羿龙通用处理器上软件实现相比可以获得200多倍的加速比。  相似文献   

11.
用VHDL语言在CPLD/FPGA上实现浮点运算   总被引:9,自引:0,他引:9  
介绍了用VHDL语言在硬件芯片上实现浮点加/减法、浮点乘法运算的方法,并以Altera公司的FLEX10K系列产品为硬件平台,以Maxplus Ⅱ为软件工具,实现了6点实序列浮点加/减法运算和浮点乘法运算。  相似文献   

12.
定点DSP在做浮点运算时效率不高,影响了定点DSP的应用.TI公司推出针对C24X系列DSP的qmath数学函数库,用定点算法优化实现了常用的一些数学函数.本文介绍了该数学函数库的使用方法和要注意的问题,并在相同硬件条件下进行了执行定点函数和浮点函数的对比实验,结果表明合理使用定点数学函数可以显著提升C语言DSP程序的执行效率,对定点DSP应用系统的高级语言开发有很大帮助.  相似文献   

13.
一种高性能、RISC-VLIW融合的多核、可重构数字媒体处理器已经从专利发明顺利形成了一个先进的数据处理器设计平台(Digital Multi-processor Platform)。研发的结果体现若干先进处理器技术的融合。(1)应用:低功耗并行运算处理覆盖数字信号处理(DSP)、数字媒体处理(DMP)和超级并行处理器(SPP)的应用扩展领域;(2)体系结构:精简指令(RISC)和超常指令字(VLIW)处理器融合于同一个可配置的平台;(3)运算能力:处理器群调用异构的通用处理器核,使用两类处理器核实例:通用处理器核(包括ALU等的通用运算)和专用处理器核(包括DDCU的用户自定义运算核);(4)可配置和可重构:硅编译器、SoC集成工具、用户自定义运算单元、多核间的和槽内的流水线、包括运算单元的现场编程;(5)设计自动化平台:专用工具用于设计、分析与验证;与商业电子自动化设计(EDA)流程接口;(6)产品模式:硅知识产权(Silicon IP)、通用处理器芯片系列(IC Series)、定制单片系统(SoC)。命名为Fusion的融合式数字多核处理器平台把数个先进处理器技术集成到一个统一的体系结构和设计环境之中...  相似文献   

14.
FFT算法是高度并行的分治算法,因此适合在GPU(Graphics Processing Unit,图形处理器)的CUDA(Compure Unified Device Architecture,计算统一设备体系结构)构架上实现.阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验.实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右.  相似文献   

15.
实时可重配置FFT处理器的ASIC设计   总被引:2,自引:1,他引:1  
设计一种能够完成4,16,64,256或1 024点复数快速傅里叶变换(FFT)处理器芯片.16,64点运算采用基-4级联流水线结构,256,1 024点采用二维运算结构,数据采用块浮点表示.使用Synopsys公司的综合及布局布线工具在SMIC CMOS 0.18 μm工艺上进行ASIC实现.该处理器芯片在100 MHz时钟频率连续工作时,处理一组1 024点FFT序列需要24.8 μs,每隔10.24 μs输出一组1 024点运算结果.该处理器芯片已应用于某宽带数字接收机中.  相似文献   

16.
针对基于采样法的数字仪器,提出一种合成不确定度评定模型。分析了由数据采集环节的量化误差、偏置误差、增益误差、积分非线性误差等产生的测量不确定度,讨论了数字信号处理器在实现浮点运算和定点运算中,由有限字长引入的测量不确定度。在此基础上,研究了数据采集和信号处理环节中各种不确定度源经离散Fourier变换算法传递的数学模型。仿真实验验证了所得到的测量结果合成标准不确定度与模数转换位数、定点运算位数或浮点运算位数、信噪比、采样样本数之间的解析关系的有效性。  相似文献   

17.
在原始蒙哥马利模乘算法基础上提出一种双域统一的蒙哥马利模乘算法.根据该算法设计了一种高性能可扩展双域模乘单元电路,以支持蒙哥马利模乘运算的加速计算.该模乘单元电路采用以高基数为处理字长,并使用多处理单元流水计算的方法,来实现高效快速的模乘计算,具有高度的可扩展性和可配置性,支持双域任意位宽的模乘运算.在0.18μm CMOS工艺下,对模乘单元电路性能和面积进行评估表明,面积为166×103门,完成1 024bit的模乘运算仅需1.3μs.  相似文献   

18.
高速浮点FFT处理器的FPGA实现   总被引:3,自引:0,他引:3  
介绍了一种基于FPGA的1024点自定义24位浮点FFT处理器的设计。采用改进的蝶形运算单元,减小了系统的硬件消耗,改善了系统的性能。采用流水的方式提高了系统的处理速度,使计算与存储器读/写等操作协调一致;浮点算法使得系统具有较高的处理精度。该设计方法可以广泛应用于高速数字信号处理领域。  相似文献   

19.
单片机多字节浮点除法快速扫描运算的实现   总被引:3,自引:0,他引:3  
在单片型2计算机浮点运算中,对高精度多字节的浮点数据一般采用的是标准边减边移位的方法,操作时间满足了不快速运算的需要,文中介绍了一种快速扫描的浮点除方法。  相似文献   

20.
利用在FPGA上实现32位浮点加法、乘法运算模块,根据泰勒多项式进行VHDL程序的映射来逼近浮点正弦函数值,所有数据都是以IEEE-754 32位单精度标准来进行函数运算的.它能够兼容大多数的处理器,为在FPGA上实现含有正弦运算的混沌电路、滤波技术、语音图象处理等电路系统带来极大的方便.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号