首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为提高处理器内核访存效率、命中率和缩短访存延迟,将具有时间和空间关联关系的数据汇集在处理器片上缓存内,数据便具有了有利于处理器内核访存的及时局部性.本文分析了营造及时局部性环境的合理性和及时局部环境因数据迁移而产生的变化规律,为进一步改造片上缓存结构和片上数据迁移提供新的启示.  相似文献   

2.
面向Cell宽带引擎架构的异构多核访存技术   总被引:4,自引:1,他引:3  
针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批量访存计算中的片内访存开销,利用支持粗粒度访问的软件管理cache及数据预取来降低按需访存的片外访存开销;以访存接口库的方式来改善软件的可编程性.实验结果表明,所提技术的访存接口库在批量访存方式下的性能比ALF和CellSs提高了30%~50%,按需访存中软件管理cache性能比CBE软件开发工具包提高了20%~30%,4路数据预取访存比单路缓存的性能提高约50%.  相似文献   

3.
许多高性能嵌入式处理器都引入了多级缓存、硬件预取及软件预取等机制,为使支持软件预取的硬实时任务具有执行时间的可预测性,提出一种支持软件预取的缓存WCET分析方法. 该方法对多级缓存抽象解释模型进行了软件预取语义扩展,分析了软件预取对任务的最坏情况下性能和能耗的影响. 实验结果表明,该方法能够对支持软件预取的多级缓存行为进行有效分析;同时软件预取优化技术可使某些访存缺失较大的硬实时任务WCET平均减少22.9%,能耗平均降低24.1%.   相似文献   

4.
针对多核私有Cache结构面临的容量失效问题,提出了一种基于细粒度伪划分的核间容量共享机制.通过在细粒度层次为每个Cache Bank设置加权饱和计数器阵列来统计和预测各线程的访存需求差异情况,控制各个处理器核在每个Cache Set上的私有域与共享域划分比例,并以此指导各处理器核上的牺牲块替换、溢出与接收决策,利用智能的核间容量借用机制来均衡处理器间访存需求差异,缓解多核私有Cache结构面临的容量失效问题.在体系结构级全系统模拟器上的实验结果表明,该机制能够有效改善多核私有Cache结构的容量失效问题,降低多线程应用程序的平均存储访问延迟.  相似文献   

5.
针对面向雷达应用可重构系统中数据访存冲突严重、访存效率低等问题,设计了一种片上层次化缓存结构,并提出基于多存储体的线性步长可变的数据管理机制,通过建立计算阵列与各个存储体之间可配置的逻辑映射关系,有效降低了多个计算阵列并行工作时产生的访存冲突,提高了计算阵列的数据吞吐率,从而提高了可重构系统的数据访存性能.结果表明,该方案在有效控制硬件开销的同时,极大地提升了可重构系统的数据访存性能,以256~64×210快速傅里叶变换为例,与经典并行缓存机制相比,可重构系统的数据访存性能提升了26.09%~54.60%.  相似文献   

6.
传统数据预取技术在处理结构复杂的非规则数据应用程序时,其有效性明显下降.为解决该问题,基于程序运行时的数据访问阶段性特征,提出一种面向非规则数据的阶段预取策略,研究应用程序的访存规律和预取调度机制.该策略通过在线剖析应用程序的访存行为,识别出数据访问性能指标表现稳定的数据访问阶段和具有特定访存行为特征的预取阶段,实现在数据访问阶段内依据预取阶段的访存规律动态调整预取操作.实验结果表明,与传统的基于访存流模型的数据预取技术相比较,阶段预取策略能够减少无用预取,更加有效地改善非规则数据应用程序性能.  相似文献   

7.
三维众核片上处理器的研究近年来逐渐引起了学术界的广泛关注.三维集成电路技术可以支持将不同工艺的存储器层集成到一颗芯片上,三维众核片上处理器可以集成更大的片上缓存以及主存储器.研究三维众核片上处理器存储架构,探索了集成SRAM L2cache层,DRAM主存储器层等,对三维众核片上处理器性能的影响.从仿真结果可知,相比集成1层L2cache,集成2层L2cache的三维众核片上处理器性能最大提高了55%,平均提高34%.将DRAM主存储器集成到片上最大可以提高三维众核片上处理器80%的系统性能,平均改善34.2%.  相似文献   

8.
面向按序执行处理器开展预执行机制的设计空间探索, 并对预执行机制的优化效果随 Cache 容量和访存延时的变化趋势进行了量化分析。实验结果表明, 对于按序执行处理器, 保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能, 前者还能够有效地降低能耗开销。将两者相结合使用, 在平均情况下将基础处理器的性能提升 24. 07% , 而能耗仅增加 4. 93% 。进一步发现, 在 Cache 容量较大的情况下, 预执行仍然能够带来较大幅度的性能提升。并且, 随着访存延时的增加, 预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。  相似文献   

9.
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随 Cache 容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能,前者还能够有效地降低能耗开销。将两者相结合使用,在平均情况下将基础处理器的性能提升 24. 07% ,而能耗仅增加 4. 93% 。进一步发现,在 Cache 容量较大的情况下,预执行仍然能够带来较大幅度的性能提升。并且,随着访存延时的增加,预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。  相似文献   

10.
为满足现代高分辨率雷达大容量高速缓存以及被动雷达和时差定位系统采样预触发的需要,提出了采用多片先进先出(FIFO)芯片级联的硬件结构实现可编程采样预触发和缓存容量扩展.分析了两级FIFO级联时芯片间接口的时序,给出了对FIFO可编程标志位的设置方法.实际应用证明,采用该结构可使系统的缓存容量达到2 MB,预触发量达到1 MB,且两种功能可由FPGA控制切换.该结构也适用于其它具有可编程标志的FIFO.  相似文献   

11.
利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。  相似文献   

12.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

13.
在嵌入式双核处理器(ARM DSP)平台之上,提出基于嵌入式数据库的网络视频监控系统架构.通过移植嵌入式数据库FUEL在TMS320DM6446音视频开发平台,利用其在多线程环境下对共享数据的管理,实现了多核处理器平台的音视频编解码对数据访问的一致性;并基于FUEL实现了嵌入式视频监控系统,使得系统在嵌入式多核处理器架构上更好地管理多线程应用程序之间共享的数据,进而可靠、高效地进行音视频的网络传输.  相似文献   

14.
Packet classification is crucial to the implementation of advanced network services that require the capability to distinguish traffic in different flows, such as access control in firewalls and protocol analysis in intrusion detection systems. This paper proposes a novel packet classification algorithm optimized for multi-core network processors. The proposed algorithm, AggreCuts, has an explicit worst-case search time with modest memory usage. The data structure of AggreCuts is flexible and well-adapted to different types of multi-core platforms. The algorithm on both Intel IXP2850 32-bit and Cavium OCTEON3860 64-bit multi-core platforms was implemented to evaluate the performance of AggreCuts. The experimental results show that AggreCuts outperforms the best-known existing algorithm in terms of memory usage and classification speed.  相似文献   

15.
多核处理器凭借着低功耗高性能的优势占据了市场.针对多核平台上并行实时任务,提出局部与全局EDF相结合的调度算法,其中任务的截止期划分、执行预算以及迁移时机由所设计的处理器带宽预留服务器决定.同时,提出了内存分配算法,该算法能够更好地为并行实时任务管理内存资源.实验结果表明新的调度算法具有更高的调度成功率.另外,在内存资源竞争的前提下,内存分配算法可以保证并行任务的实时性与系统稳定性.  相似文献   

16.
As the core algorithm and the most time consuming part of almost every modern network intrusion management system (NIMS), string matching is essential for the inspection of network flows at the line speed. This paper presents a memory and time efficient string matching algorithm specifically designed for NIMS on commodity processors. Modifications of the Aho-Corasick (AC) algorithm based on the distribution characteristics of NIMS patterns drastically reduce the memory usage without sacrificing speed in software implementations. In tests on the Snort pattern set and traces that represent typical NIMS workloads, the Snort performance was enhanced 1.48%-20% compared to other well-known alternatives with an automaton size reduction of 4.86-6.11 compared to the standard AC implementation. The results show that special characteristics of the NIMS can be used into a very effective method to optimize the algorithm design.  相似文献   

17.
Implementing video applications on emerging multi-core processors is a promising technique for personal, real-time multi-media applications. However, when porting the legacy parallel video encoders developed for clusters to shared-memory multi-cores, the existing parallel algorithms result in workload imbalances on different cores and communication inefficiencies. This paper describes a strip-wise parallel scheme to balance workloads and a hybrid communication mechanism to reduce communication overhead. The implementation of the H.264 parallel encoder on an eight CPU Intel Xeon system achieves 5x to 6x speed-up over a single thread encoder and achieves a 29% performance improvement over the commonly used master-slave schemes on clusters. The paper also gives further analysis on scalability, parallel efficiency, workload balance, and communication overhead as the number of cores varies.  相似文献   

18.
针对嵌入式单核处理器处理速度慢及主频提升受限等问题,提出了嵌入式双核处理器(two-cores embedded processor,TEP)模型.针对处理器运行时对存储器的依赖和分配问题,提出了基于非统一存储结构模拟分布式存储结构的方案;针对多核间对共享数据存储器的访存问题,给出了从属单元的仲裁机制,实现了共享资源的访问;针对面向多媒体应用的多核处理器间传输数据量大及通讯开销高的问题,提出了基于消息数据分离的传输方案.系统在FPGA平台进行了实现和验证,测试结果表明,TEP系统以较少的资源消耗和通讯开销获得了大加速比的性能.  相似文献   

19.
Big data analytics is emerging as one kind of the most important workloads in modern data cen-ters.Hence, it is of great interest to identify the method of achieving the best performance for big data analytics workloads running on state-of-the-art SMT ( simultaneous multithreading) processors, which needs comprehensive understanding to workload characteristics.This paper chooses the Spark workloads as the representative big data analytics workloads and performs comprehensive measure-ments on the POWER8 platform, which supports a wide range of multithreading.The research finds that the thread assignment policy and cache contention have significant impacts on application per-formance.In order to identify the potential optimization method from the experiment results, this study performs micro-architecture level characterizations by means of hardware performance counters and gives implications accordingly.  相似文献   

20.
目的设计并实现一种基于数据划分的矩阵乘法的并行算法,将划分的数据交给多个线程同时执行,充分挖掘计算机的性能。方法根据OpenMP并行编程的基本风格,并在Visual Studio2005上搭建能够实现并行编程的环境平台。结果并行算法所花费的时间较非并行算法短。结论通过与非并行矩阵乘法性能进行比较,验证该算法可以有效地利用多核处理器的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号