首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 256 毫秒
1.
一种面向写穿透Cache的写合并设计及验证   总被引:1,自引:0,他引:1  
为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连续和单个Cache读写的缓存与内存的数据一致性策略.在寄存器传输语言(RTL)仿真环境下使用mp3解码对Leon2处理器进行数据测试,结果表明:在缓冲区优化为3行8列的参数下,SDRAM每次行开启平均进行7.8个字的写入操作,外存的读写效率由12%提高到19%;在TSMC0.18μm工艺下,综合后面积为0.263mm2,流片后工作主频为100MHz.  相似文献   

2.
针对含有大量数据的大数据存储系统,提出了一种基于编码技术的面向大数据备份的优化算法(BDCode).该算法通过对不同编解码服务器设置不同的虚拟节点存储组来保证系统的可用性,节点和数据块的并行解码计算提高了系统中数据损坏时的恢复效率.实验表明,所提出基于编码的大数据系统备份机制可以提高系统的存储利用率,并行解码方式的引入能加速减少数据损坏时的恢复时间,并能达到零号的系统负载均衡;此外不同的用户设置不同的编码参数,增加了大数据系统的鲁棒性.实验通过设置不同的数据块m和校验块k的比例来提升利用率,并行解码速度相比以前的串行提高近两倍.使用BDCode比CRS编码效率平均高36.1%,解码效率平均高19.3%;比RS码编码效率平均高58.2%,解码效率平均高33.1%.  相似文献   

3.
研究并提出了一种基于二维访问机制的数据缓存结构(2D Cache)及其更新管理策略.该缓存结构可以在控制硬件存储开销的同时,有效提升可重构系统的数据访存效率.实验结果表明,仅需4 KB的数据缓存开销,可重构系统的访存性能提升了29.16%~35.65%,并且对于不同标准的媒体处理算法都能获得较好的优化效果,具有很好的适应性.芯片实测结果表明,采用所述数据缓存设计方案的可重构系统可以在200 MHz下满足1080p@30fps的实时解码需求,与国际同类架构相比,性能提高了1.8倍以上.  相似文献   

4.
文章提出了一种数字电视信源解码片上系统(SoC,System on a Chip)存储系统的设计方案。通过分析系统中各种任务访问SDRAM的特点以及估算所需带宽,提出了视频数据的存储映射方法以及各种任务的时间片划分与总线仲裁算法。实验结果表明,利用此方法实现的解码芯片可以很好满足实时解码的要求。  相似文献   

5.
CERCIS:一种视频媒体编解码片上系统的设计实现   总被引:1,自引:0,他引:1  
基于面向特定应用的可配置处理器架构及其设计方法,设计并完成了一种视频媒体编解码片上系统芯片,它具有通用数字信号处理器的柔性编程及特定目标应用时的高性能等特点。该视频编解码片上系统由编码和解码2部分组成,编码和解码部分都采用相同的媒体信号处理架构。媒体信号处理编码、解码架构中分别包含一个8发射超长指令字数字信号处理器核,还包括实现视频媒体应用的专用数据传输单元,变长编解码单元以及接口单元,可以完成H.263视频媒体编码和解码。在0.13μm工艺库下模拟验证表明,该片上系统在17MH z工作频率下可完成15帧/s QC IF图像的H.263编码,在10MH z工作频率下可完成15帧/s QC IF图像的H.263解码。  相似文献   

6.
基于面向特定应用的可配置处理器架构及其设计方法,设计并完成了一种视频媒体编解码片上系统芯片,它具有通用数字信号处理器的柔性编程及特定目标应用时的高性能等特点。该视频编解码片上系统由编码和解码2部分组成,编码和解码部分都采用相同的媒体信号处理架构。媒体信号处理编码、解码架构中分别包含一个8发射超长指令字数字信号处理器核,还包括实现视频媒体应用的专用数据传输单元,变长编解码单元以及接口单元,可以完成H.263视频媒体编码和解码。在0.13μm工艺库下模拟验证表明,该片上系统在17MHz工作频率下可完成15帧/sQCIF图像的H.263编码,在10MHz工作频率下可完成15帧/sQCIF图像的H.263解码。  相似文献   

7.
针对访存相对密集的应用,提出了一种基于访存模式高效率数据访问技术。该技术结合应用程序的访存特性和GPU的片上高速共享存储器特性减少应用程序对高延迟片外存储访问的次数从而提高系统数据访问的效率,通过在不同架构的GPU上进行了验证,分别取得了N卡最高9倍和A卡最高8倍的加速效果,并对各个优化策略在不同架构GPU上取得效果的原因进行了分析。  相似文献   

8.
首先, 基于云计算应用模式, 提出一种能有效利用云存储架构的双层缓存技术. 通过在客户端和服务器端建立分布式缓存, 能有效避免用户频繁访问远端数据, 为用户构建轻量级的客户端, 解决了目前地学数据可视化软件大量占用用户本地存储容量的问题. 同时服务器端也避免了多次访问云存储文件系统, 减少了大量的数据检索与加载时间. 其次, 提出一种ARLS(association rule last successor)访问预测算法, 根据用户的历史访问记录, 利用关联规则挖掘用户的访问模式, 对其访问行为进行预测, 进而提前加载数据, 提高缓存命中率, 解决了用户在可视化过程中不断移动兴趣区域, 频繁更换渲染数据的问题, 能有效应对用户具有多种访问模式的情况, 提高了预测准确率. 实验结果表明, 该云存储架构显著减少了本地资源消耗, 访问预测算法的准确率在最差情形下可达47.59%, 平均准确率达91.3%, 分布式缓存的平均缓存命中率达95.61%, 可有效支持云端大规模地震数据的快速可视化.  相似文献   

9.
用摩托罗拉公司的FSK解码芯片MC14LC5447完成对来电显示数据的解码,用AT89C2051单片机系统进行数据采集处理和数据存储,通过DLL动态链接库控制USB203(8位并行输入USB传输模块),完成对存储数据的传输,并对采集的数据进行分析处理。使用改进后的软件接口进行数据传输,实现了可用于VC、VB和DELPHI语言编程环境的接口函数。  相似文献   

10.
用powerbuilder 开发工具的分布式对象实现三层结构式的医保数据传输.三层结构式的医保数据传输是在医保数据库服务器与公网之间加上1台数据传输应用服务,这台数据传输应用服务器上安装数据传输服务端程序,向公网开放数据传输服务端口,可以访问互联网外,其它的服务端口全部关闭;定点医疗机构的客户端通过互联网访问应用服务器上的数据传输服务端,医保数据库服务器设置为不能访问互联网,也不能被互联网访问.应用三层结构式可以安全地传输医保数据.  相似文献   

11.
针对片上系统(System on Chip,SoC)中多主设备、多猝发操作的访问特点,提出并实现了一种新的片内总线访问外部存储器的结构,并对核心模块的设计与优化进行了分析.该结构通过分割传输方式使内部总线平均利用率提高了29%~34%;并且,通过对SDRAM控制模式的动态切换有效地降低了外存读写延迟和功耗.  相似文献   

12.
为了提高嵌入式多媒体应用的实时性能,提出了一种最大化数据并行访问以便充分发挥CPU处理能力的片上存储器分配方法。CPU指令的并行数据访问以及CPU与直接存储器存取(DM A)的并行访问都可能导致冲突,片外存储器的慢速存取也会导致CPU流水线停止。根据CPU处理数据的需要分配片上存储器,采用DM A动态地将数据转移到片上,减小存取慢速片外存储器带来的延时;充分利用CPU多条数据总线并行访问多个存储器块的能力和双端口存储器(DARAM)一个周期两次访问的能力,减小存储器带宽的限制。实验结果表明:合理分配存储器,程序执行时间最多减少了48%。存储器分配该方法简单,易于实现。  相似文献   

13.
DRAM-based memory suffers from increasing row buffer conflicts, which causes significant performance degradation and power consumption. As memory capacity increases, the overheads of the row buffer conflict are increasingly worse as increasing bitline length, which results in high row activation and precharge latencies. In this work, we propose a practical approach called Row Buffer Cache(RBC) to mitigate row buffer conflict overheads efficiently. At the core of our proposed RBC architecture, the rows with good spatial locality are cached and protected,which are exempted from being interrupted by the accesses for rows with poor locality. Such an RBC architecture significantly reduces the overheads of performance and energy caused by row activation and precharge, and thus improves overall system performance and energy efficiency. We evaluate RBC architecture using SPEC CPU2006 on a DDR4 memory compared to a commodity baseline memory system. Results show that RBC improves the overall performance by up to 2:24(16:1% on average) and reduces the memory energy by up to 68:2%(23:6% on average) for single-core simulations. For multi-core simulations, RBC increases the overall performance by up to1:55(17% on average) and reduces memory energy consumption by up to 35:4%(21:3% on average).  相似文献   

14.
将Altera公司的DE2多媒体开发平台与Terasic公司的D5M数码相机开发套件相结合,设计了一套基于小波无损压缩的实时图像处理系统。系统采用便于可编程逻辑器件灵活实现的二维整数5/3提升小波变换实现压缩。为保证图像的无损压缩,对边界数据进行对称周期延拓处理。并针对实时处理过程中的大容量数据流的存储问题,应用片外存储资源保存采集和处理过程中的图像数据,有效地降低了片上存储资源的消耗。测试结果表明:系统满足实时图像采集、预处理及无损压缩的要求。  相似文献   

15.
为了使具有高吞吐量特性的并行Turbo码译码得到应用,提出了并行无冲突交织器的数学模型,并由它得到一种改进的内存地址映射(IMM)方案,此方案能快捷高效地将传统的交织器变为并行交织器。仿真结果表明,相比传统的内存地址映射(MM)方案和优化的内存地址映射(OPMM)方案,IMM方案更加快速高效。在执行效率方面,IMM的效率比MM和OPMM分别提高了约96%和16%;在延时方面,IMM的延时比MM和OPMM分别降低至1/129和1/10。  相似文献   

16.
针对传统指纹采集系统实时性差及逻辑控制复杂等缺陷,提出一种基于FPGA的嵌入式指纹采集系统,讨论系统的组成原理、硬件电路设计与软件实现.该系统选用FPGA芯片EP2C35F672C6作为处理器,MBF200为指纹传感器,通过SPI连接实现其通信;应用片外SRAM保存采集的指纹图像数据,实现一种高效的嵌入式指纹采集系统.测试表明,该系统具有较高的易用性和实时性.  相似文献   

17.
A memory and driving clock efficient design scheme to achieve WCDMA high-speed channel decoder on a single XILINX' XVC1000E FPGA chip is presented. Using a modified MAP algorithm, say parallel Sliding Window logarithmic Maximum A Posterior (PSW-log-MAP), the on-chip turbo decoder can decode an information bit by only an average of two clocks per iteration. On the other hand, a high-parallel pipeline Viterbi algorithm is adopted to realize the 256-state convolutional code decoding. The final decoder with an 8×chip-clock (30.72MHz) driving can concurrently process a data rate up to 2.5Mbps of turbo coded sequences and a data rate over 400kbps of convolutional codes. There is no extern memory needed. Test results show that the decoding performance is only 0.2~0.3dB or less lost comparing to float simulation.  相似文献   

18.
基于交替方向乘子法(ADMM)的线性规划(LP)译码模型因其不会出现错误平台和具有最大似然认证的优点,广受译码研究者的关注。目前大多数ADMM算法采用的是泛洪调度策略(FL),该算法存在译码收敛速度过慢的问题。基于水平分层调度的交替方向乘子法的低密度奇偶校验(LDPC)码译码算法能够加速译码收敛速度,然而目前水平分层调度算法中的投影算法采用的为精确投影算法,复杂度较高。针对该问题,文中将近似投影算法和水平分层调度算法结合,提出基于近似投影的ADMM水平分层调度译码算法以提高译码的性能。仿真实验表明,相比其他算法,本文提出的算法的译码性能可提升0.1~0.3dB,迭代次数可降低约19%~40%,平均译码时间可减少大约21%~65%。  相似文献   

19.
This paper concerns a decoding strategy to improve the throughput in NAND flash memory using low- density parity-check (LDPC) codes. As the reliability of NAND flash memory continues degrading, conventional error correction codes have become increasingly inadequate. LDPC code is highly desirable, due to its powerful correction strength. However, in order to maximize the correction strength, LDPC codes demand fine-grained memory sensing, leading to a significant read latency penalty. To address the drawbacks caused by soft-decision LDPC decoding, this paper proposes a hybrid hard-/soft-decision LDPC decoding strategy. Simulation results show that the proposed approach could reduce the read latency penalty and hence improve the decoding throughput up to 30 %, especially in early lifetime of NAND flash memory, compared with the conventional decoding with equivalent area.  相似文献   

20.
一种低功耗的Turbo码译码算法   总被引:2,自引:0,他引:2  
冯芒  阎鸿森 《西安交通大学学报》2004,38(10):1081-1084,1089
针对Turbo码译码器功耗大的问题,改进了传统的最大后验概率译码算法,提出了一种基于网格图合并思想的低功耗Turbo码译码算法.该算法通过减少计算过程中占功耗绝大部分的存储器的访问次数来达到降低译码功耗的目的.依据N步合并后的编码网格图进行计算,使得一次译码中计算的总时刻数变为传统算法的1/N,从而使译码器总的存储器访问次数变为原来的1/N,很好地降低了译码器的功耗.理论分析和仿真结果表明,新算法的正确性和可靠性与传统的译码算法相同,并且硬件实现中的译码时延没有增加,是一种有效、可行的低功耗译码算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号