首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为了降低寄存器功耗而不损失处理器性能,提出一种基于读写队列的多体寄存器文件结构(multi-bank register file,MBRF)。该结构使用多个寄存器体来分担多端口的访问压力,并且为每个寄存器体设置相应的读写队列;通过指令分解将读写操作缓存在队列中,从而消除多体结构潜在的访问冲突;采用组合和旁路2种分配策略,减少缓冲队列的长度和对寄存器的读写请求。该结构在一个四发射的超标量模拟器上进行评估。研究结果表明:整个寄存器文件最终节省了52%的功耗,而处理器的IPC损失仅为1.6%。与其他寄存器文件相比,基于读写队列的MBRF结构在多发射处理器应用中具有明显的优势。  相似文献   

2.
指令调度对于充分发挥现代高性能RISC(reducedinstructionsetcomputer)处理器的指令级并行处理能力至关重要。基于扩展的装入延时体系结构模型,提出了在代码生成过程中针对表达式树的森林的局部寄存器分配和局部指令调度的集成算法。此算法以DLS(delayed-loadschedulingalgorithm)算法为基础,在保持了使用寄存器少,算法复杂度低的特点的同时,还为适应新的模型和提高效率做了以下扩展:1)通过记录变量内存值的改变信息,设置调度缓冲区解决了多表达式树指令调度的数据相关性问题;2)将调度范围由单个表达式树扩展到森林更有效地减少指令延时;3)通过对调度生成的指令序列的局部调整来处理store延时,有效地减少了由于共享资源而引起的互锁。  相似文献   

3.
针对目前快速傅里叶变换(FFT)处理器存储器访问算法复杂度较高,实现起来面积较大的问题,采用寄存器交换策略实现无冲突地址读写.以存储器迭代结构为主体构建FFT处理器结构,并设计了一种基于流水线的蝶形运算单元.根据基4蝶形运算数据选择的规律性,采用数据移位操作可以去除存储器中的地址解码器和控制逻辑.采用门控时钟降低系统的功耗.设计的FFT处理器通过SMIC 0.18μm工艺综合仿真,其面积为0.6 mm2,整个处理过程只需要60个时钟周期.在20 MHz的工作频率下,系统的平均动态功耗为7mW.该结构可以满足IEEE 802.11a的要求,并且具有小面积及高效的特点.  相似文献   

4.
为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。基于正弦激励线性预测(SELP)算法模型,设计了一款多速率语音专用处理器。芯片使用可重构体系结构和超长指令字(VLIW),优化了高复杂度函数。仿真结果表明:该处理器对0.6kb/s速率SELP算法的执行效率明显优于通用数字信号处理器(DSP)。处理器内部程序数据外部不可见,指令并行度显著提高,常用函数可被修改,从而达到高保密性、低复杂度、易开发性。  相似文献   

5.
微机保护中通用处理器和DSP的通信   总被引:2,自引:0,他引:2  
介绍了4种通用处理器(MPU)与数字信号处理器(DSP)的通信方式,包括利用处理器的I/O功能的通信方式、利用双体存储器(DBM)的通信方式、利用直接存储器(DMA)访问技术的通信方式和利用双端口寄存器(DPRAM)的通信方式;针对基于DSP的双处理器保护系统,通过对这4种通信方式的分析比较,选择利用双端口寄存器的通信方式来实现双处理器间的通信。  相似文献   

6.
一种面向写穿透Cache的写合并设计及验证   总被引:1,自引:0,他引:1  
为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连续和单个Cache读写的缓存与内存的数据一致性策略.在寄存器传输语言(RTL)仿真环境下使用mp3解码对Leon2处理器进行数据测试,结果表明:在缓冲区优化为3行8列的参数下,SDRAM每次行开启平均进行7.8个字的写入操作,外存的读写效率由12%提高到19%;在TSMC0.18μm工艺下,综合后面积为0.263mm2,流片后工作主频为100MHz.  相似文献   

7.
提出一种基于随机指令注入的抗旁路攻击硬件防护技术,通过在处理器内部嵌入一个指令自动产生与插入模块,在处理器运行过程中实时产生一些随机的指令并随机插入到正常指令执行序列中,打乱正常指令执行时序,起到了随机延迟与功耗混淆的作用,克服了现有软件随机延迟技术存在的缺陷.采用影子寄存器等策略解决随机指令执行与正常指令的冲突问题;通过采用配置寄存器来灵活地对随机指令注入功能进行控制,减少了系统防护开销,提高了防护效率.实验结果表明该技术比现有随机时间延迟技术安全性更强而且开销更低.  相似文献   

8.
基于DSP—TMS320C5402的FIR数字滤波器设计及实现   总被引:3,自引:0,他引:3  
简述了FIR数字滤波器的特点,以及其在DSP上实现的原理.基于TMS320C5402芯片的数字信号处理功能,通过使用已设计的FIR滤波器系数,运用MAC指令、循环缓冲寄存器、块循环寄存器对一个混合信号进行带通滤波处理.实验结果表明,所仿真的FIR滤波器能实现滤波功能.  相似文献   

9.
基于DSP的快速小波分解和重构   总被引:9,自引:1,他引:8  
在小波变换和TI(TexasInstruments)的浮点数字信号处理器TMS320C3X的基础上,对Mallat快速算法的分解公式和重构公式分别作了详细地说明,提出并实现了利用Matlab作辅助的设计工具在TMS320C3X DSP上实现快速小波分解和快速小波重构的方法,并给出了主要的汇编代码.该方法利用DSP(Digital Signal Processor)指令集的特点,以较少的指令周期,实现了Mallat算法.实际运行结果表明,该方法满足实时处理场合的要求.  相似文献   

10.
随着VLSI技术的发展,传统的采用了全互连网络的全分布式超长指令字结构的功能单元通信开销,成为制约着处理器频率增加和规模扩大的瓶颈.在分析应用程序特征的基础上,利用定义的5种通信模式提出了多种全分布式超长指令字部分互连结构,分析了由全互连结构变为部分互连结构通信方式上的改变,并完成了功能单元指派和通信调度等相关的编译调整.模型分析和实验数据表明,相比全互连结构,部分互连结构在程序性能些微降低的情况下,面积、功耗等资源开销大幅减少,并呈现出良好的可扩展性.  相似文献   

11.
The cost of the central register file and the size of the program code limit the scalability of very long instruction word (VLIW) processors with increasing numbers of functional units. This paper presents the architectural design of a six-way VLIW digital signal processor (DSP) with clustered register files. The architecture uses a variable length instruction set and supports dynamic instruction dispatching. The one-level memory system architecture of the processor includes 16-KB instruction and data caches and 16-KB instruction and data on-chip RAM. A compiler based on the Open64 was developed for the system. Evaluations show that the processor is suitable for high performance applications with a high code density and small program code size.  相似文献   

12.
CERCIS:一种视频媒体编解码片上系统的设计实现   总被引:1,自引:0,他引:1  
基于面向特定应用的可配置处理器架构及其设计方法,设计并完成了一种视频媒体编解码片上系统芯片,它具有通用数字信号处理器的柔性编程及特定目标应用时的高性能等特点。该视频编解码片上系统由编码和解码2部分组成,编码和解码部分都采用相同的媒体信号处理架构。媒体信号处理编码、解码架构中分别包含一个8发射超长指令字数字信号处理器核,还包括实现视频媒体应用的专用数据传输单元,变长编解码单元以及接口单元,可以完成H.263视频媒体编码和解码。在0.13μm工艺库下模拟验证表明,该片上系统在17MH z工作频率下可完成15帧/s QC IF图像的H.263编码,在10MH z工作频率下可完成15帧/s QC IF图像的H.263解码。  相似文献   

13.
本文依据ETSI 颁布的DRM系统标准,分别基于FPGA、普通DSP和VLIW DSP三种不同硬件平台实现了DRM系统信道编码器模块,并对基于三种不同硬件平台的实现进行比较分析.  相似文献   

14.
本文依据ETSI 颁布的DRM系统标准,分别基于FPGA、普通DSP和VLIW DSP三种不同硬件平台实现了DRM系统信道编码器模块,并对基于三种不同硬件平台的实现进行比较分析.  相似文献   

15.
The power consumption by the data cache is important in DSP designs.This study presents an enhanced branch access LRU-SEQ(EBA-LRU-SEQ) policy for data caches in DSP designs to reduce the power consumption.The design is based on the LRU policy with embedded prefetch table to provide branch access.Tests show that the EBA-LRU-SEQ policy reduces the data cache power consumption to 54% of a system with no power control.  相似文献   

16.
由于TMS320C6000系列DSP具有独特的超长指令字(VLIW)结构,芯片硬件功能能否充分发挥很大程度上依赖于软件的执行效率.因此,在用DSP进行实时跟踪系统的设计时,软件的执行效率将直接影响系统的实时性.笔者深入研究了基于DSP的视频跟踪系统中软件优化的方法,包括编译器选项的设定、DSP关键字和内联函数的使用、数据打包处理以及软件流水技术.利用这些方法对系统的软件进行优化,解决了系统在处理过程中实时性差的问题,从而提高了整个系统的稳定性.  相似文献   

17.
一种高性能、RISC-VLIW融合的多核、可重构数字媒体处理器已经从专利发明顺利形成了一个先进的数据处理器设计平台(Digital Multi-processor Platform)。研发的结果体现若干先进处理器技术的融合。(1)应用:低功耗并行运算处理覆盖数字信号处理(DSP)、数字媒体处理(DMP)和超级并行处理器(SPP)的应用扩展领域;(2)体系结构:精简指令(RISC)和超常指令字(VLIW)处理器融合于同一个可配置的平台;(3)运算能力:处理器群调用异构的通用处理器核,使用两类处理器核实例:通用处理器核(包括ALU等的通用运算)和专用处理器核(包括DDCU的用户自定义运算核);(4)可配置和可重构:硅编译器、SoC集成工具、用户自定义运算单元、多核间的和槽内的流水线、包括运算单元的现场编程;(5)设计自动化平台:专用工具用于设计、分析与验证;与商业电子自动化设计(EDA)流程接口;(6)产品模式:硅知识产权(Silicon IP)、通用处理器芯片系列(IC Series)、定制单片系统(SoC)。命名为Fusion的融合式数字多核处理器平台把数个先进处理器技术集成到一个统一的体系结构和设计环境之中...  相似文献   

18.
数字信号处理器(Digital Signal Processing,DSP)芯片用于手持式设备,功耗是其核心参数; DSP因ROM具有高的可靠性而使用其对固化的bootloader,科学函数库,功能函数库以及主应用程序进行存储,其功耗的大小对整个芯片产生了较大的影响;针对芯片中ROM被频繁访问产生较大功耗的问题,提出了对ROM存储空间进行结构优化和对其存储空间进行地址重组优化及对读数据时序结构进行优化的低功耗优化方法,达到了在不影响DSP性能的前提下降低功耗的目的; DSP已经流片并改版,最终减小DSP整体功耗约11.3%。  相似文献   

19.
通过分析专用DSP技术发展, 提出一个面向媒体处理的可配置DSP: CmDSP。在自主定义专用媒体指令集基础上, 采用SIMD技术以及相应复数乘法器和专用协处理器等加速单元, 并采用VLIW技术和双簇结构。 CmDSP基于SMIC 0.18 m Digital Logic工艺实现, 并自主设计测试板, 完成了指令级测试和若干媒体算法的应用实现, 可以满足该领域设计工程的需要。  相似文献   

20.
为了系统而有效地设计微处理器功能验证激励,针对VLIW体系结构微处理器的结构特征,特别是多操作流水线并行特征,提出了VLIW体系结构微处理器的功能验证模型,基于该模型, 针对一个规模为1 500 kbit等效逻辑门的VLIW体系结构微处理器, 完成了功能验证方案的制定和105周期功能验证激励的设计.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号