首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
同时多线程结构利用线程级并行和指令级并行的优势,提高了指令吞吐率,但线程对关键资源(如指令队列)的竞争会削弱这种优势,造成资源浪费,又会降低处理器性能。提出了指令队列利用参数,通过分析指令队列利用率与处理器性能的关系,用实验评估了在四线程情况下,典型静态指令队列竞争缓解策略(如Dwarn、2OP_Block、Static)及其组合对处理器性能的影响。给出了load依赖链模型,分析了基于load依赖链的基准程序线程特性,提出了一种结合线程特性的指令队列竞争缓解策略。实验结果表明,该策略能够加速执行指令吞吐率较高的线程,通过提升此类线程的性能使整体指令吞吐率进一步增加。  相似文献   

2.
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,根据并行线程间读数据共享程度高以及共享读数据访问局部性好的特征,采用基于指令的方法来预测共享读数据流,在后行线程需要共享数据之前将其主动推送至该线程的一级Cache中去,从而减少较慢线程的数据访问延时,提高执行速率,降低较慢线程与先行线程间执行速率的差异.SAAPC技术避免了预取技术所带来的额外片外带宽增加的缺点.使用SESC模拟器对来自于SPLASH2测试程序集的5个存储敏感型并行程序进行了测试仿真,结果表明,与传统的共享Cache相比,使用SAAPC技术减少了并行线程间执行速率的差异,系统的每周期指令数平均提高了7%,最高达到13.1%.  相似文献   

3.
为了使应用线程更合理地映射到众核处理器具体处理核上,提出一种利用不同线程内部数据局部性及不同线程间数据相关性的特点、结合具体硬件架构特征的线程分组映射方法。通过计算数据重用距离,分析应用程序线程内部数据局部性,用线程相关性矩阵度量不同线程间的数据相关性;根据应用程序数据相关性及众核处理器硬件架构特点,通过设计数据相关性子树生成算法,将应用线程分为能反映不同线程数据访问特点的逻辑组;在线程逻辑分组的基础上,通过线程到处理核的绑定实现线程到具体处理器不同处理核硬件线程的合理映射。实验结果表明:与传统映射方法相比,该线程分组映射方法在不产生额外运行时开销的基础上,计算性能平均提高了14%,能耗降低了12%。该方法可以根据应用程序不同线程之间的数据相关性,将不同线程合理映射到具体众核处理器不同处理核上,在不引入额外运行时开销的基础上,提升众核系统的计算效能。  相似文献   

4.
THDS-100调度自动化系统中多线程技术的应用   总被引:1,自引:0,他引:1  
为提高调度自动化系统的性能 ,以中、小型地调和县调为主要应用对象 ,结合 Windows NT操作系统多线程处理能力 ,利用多线程的特点及其优势 ,讨论了如何利用线程的优先级设置 ,使系统重要运行状况得到快速响应。同时比较了实现线程同步的几种方法 ,避免了数据的不一致。该技术已成功地应用于 THDS- 10 0调度自动化系统中 ,显示出明显的优越性。避免了常规定时器方式下时间的浪费。利用操作系统的线程调度功能管理调度自动化系统中不同功能的线程 ,使系统性能达到最高 ,并在故障处理时仍可以实现系统其他功能  相似文献   

5.
VC 语言多线程编程及其实现   总被引:1,自引:0,他引:1  
提出从线程的创建、线程的调度、线程的优先级与线程的同步等几个方面的问题,较为全面详细地介绍了使用VC 语言进行多线程编程的实现方法。  相似文献   

6.
提出从线程的创建、线程的调度、线程的优先级与线程的同步等几个方面的问题.较为全面详细地介绍了使用VC++语言进行多线程编程的实现方法。  相似文献   

7.
提出了一种基于同时多线程技术的硬件多线程处理器设计.通过处理器内部的硬件机制来完成对多线程的调度管理,实现基于硬件的时间片轮询多线程调度机制.最大程度地减少操作系统中关于线程调度的开销,提高处理器执行多用户线程时的整体效率,简化了用户在多线程条件下的编程复杂度,增强了多线程运行环境下处理器对线程的保护.  相似文献   

8.
一种面向写穿透Cache的写合并设计及验证   总被引:1,自引:0,他引:1  
为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连续和单个Cache读写的缓存与内存的数据一致性策略.在寄存器传输语言(RTL)仿真环境下使用mp3解码对Leon2处理器进行数据测试,结果表明:在缓冲区优化为3行8列的参数下,SDRAM每次行开启平均进行7.8个字的写入操作,外存的读写效率由12%提高到19%;在TSMC0.18μm工艺下,综合后面积为0.263mm2,流片后工作主频为100MHz.  相似文献   

9.
面向按序执行处理器开展预执行机制的设计空间探索, 并对预执行机制的优化效果随 Cache 容量和访存延时的变化趋势进行了量化分析。实验结果表明, 对于按序执行处理器, 保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能, 前者还能够有效地降低能耗开销。将两者相结合使用, 在平均情况下将基础处理器的性能提升 24. 07% , 而能耗仅增加 4. 93% 。进一步发现, 在 Cache 容量较大的情况下, 预执行仍然能够带来较大幅度的性能提升。并且, 随着访存延时的增加, 预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。  相似文献   

10.
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随 Cache 容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能,前者还能够有效地降低能耗开销。将两者相结合使用,在平均情况下将基础处理器的性能提升 24. 07% ,而能耗仅增加 4. 93% 。进一步发现,在 Cache 容量较大的情况下,预执行仍然能够带来较大幅度的性能提升。并且,随着访存延时的增加,预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号