首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

2.
目的研究基于可编程逻辑的32位MIPS流水线处理器应用硬件多线程方式的实现。方法首先描述了新的线程管理指令,以使处理器可以支持4个线程;其次通过编写硬件描述语言并进行相应的功能仿真以及后续的时序仿真,确保功能和时序的正确性;最后通过Xilinx ISE对Spartan3e芯片进行综合。结果综合结果显示在逻辑块中多线程占用了25%的开销,最大的部分来自于多个程序计数器、本地状态寄存器和线程切换的相关逻辑。结论通过功能仿真对比,发现4线程处理器的性能相比较单线程有很大提升。  相似文献   

3.
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,根据并行线程间读数据共享程度高以及共享读数据访问局部性好的特征,采用基于指令的方法来预测共享读数据流,在后行线程需要共享数据之前将其主动推送至该线程的一级Cache中去,从而减少较慢线程的数据访问延时,提高执行速率,降低较慢线程与先行线程间执行速率的差异.SAAPC技术避免了预取技术所带来的额外片外带宽增加的缺点.使用SESC模拟器对来自于SPLASH2测试程序集的5个存储敏感型并行程序进行了测试仿真,结果表明,与传统的共享Cache相比,使用SAAPC技术减少了并行线程间执行速率的差异,系统的每周期指令数平均提高了7%,最高达到13.1%.  相似文献   

4.
提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差.  相似文献   

5.
基于高效能大任务和多任务计算需求以及芯片技术的高速发展,多核处理器进入片上众核处理器时代,但如何将这种硬件能力转变成计算性能的提升,充分利用MPSo C的并行计算能力是该领域亟待解决的问题.文中研究设计了面向片上众核处理器的物理核到虚拟核分配算法(VPD),该算法通过识别任务执行时的阶段状态特征,动态重组物理核并配置成与任务计算需求相适应的虚拟核,在满足任务的计算资源需求的条件下,实现虚拟核最优分配.最后通过实验将VPD算法与不同的多核/众核处理器环境下的主流调度算法进行比较,结果表明:该算法可适用于多种环境,且效能比其他同类算法平均高5%~10%.  相似文献   

6.
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点.AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性.但如果任务粒度划分较细,其构图过程会造成很大开销.本...  相似文献   

7.
三维众核片上处理器的研究近年来逐渐引起了学术界的广泛关注.三维集成电路技术可以支持将不同工艺的存储器层集成到一颗芯片上,三维众核片上处理器可以集成更大的片上缓存以及主存储器.研究三维众核片上处理器存储架构,探索了集成SRAM L2cache层,DRAM主存储器层等,对三维众核片上处理器性能的影响.从仿真结果可知,相比集成1层L2cache,集成2层L2cache的三维众核片上处理器性能最大提高了55%,平均提高34%.将DRAM主存储器集成到片上最大可以提高三维众核片上处理器80%的系统性能,平均改善34.2%.  相似文献   

8.
随着多核处理器被广泛的应用于桌面系统,如何充分利用多核处理器的计算能力,挖掘应用程序的并行性,以充分发挥多核系统的强大计算能力,成为近几年国内外计算机领域研究的热点,多核系统并行程序设计也成为所有专业软件开发人员必须了解和掌握的一项技术.本文阐述了一种以OpenMP为基础的多核并行程序设计方法,研究并提出了两种符合多核系统并行程序设计特征的编程模式:条件同步模式和线程分组竞争模式.实验证明这些方法简单高效.  相似文献   

9.
根据硬件开销和缺陷的检测能力评估了一种可重构的调试设计方案.对于要调试的目标电路,首先设计并完成了一套由4个32位处理器核组成的多处理机系统,然后评估该调试设计电路的硬件架构.对改变调试电路排列的评估结果表明,调试电路的硬件开销占用所实现的多处理机系统在8.6%~12.7%的范围内.其次,对是否可以通过调试电路发现故障效应进行了评估.在一个16位处理器核上注入了10种不同的故障并且检查其是否会被每一个设置在处理器核上的观测点所发现,同时测量了观察所需的时钟周期数.最后还评估了每一种故障的可观察率以及每一个观察点的可观察率.  相似文献   

10.
有效地给出了一种新的基于软件自测试的串扰故障渐进式激励检测模型实现,这种基于软件自测试的检测方案是利用SOC中的处理器核的计算和处理能力来产生激励矢量,对串扰故障进行激励并对测试响应进行分析。为了提高测试速度,还提出了一种对IP核透明化处理的测试结构,该测试结构在增加较少额外硬件开销的前提下,极大地减少了测试时间。同时,这种改进的测试结构也满足串扰故障激励检测的实时、并行的要求。  相似文献   

11.
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。  相似文献   

12.
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.  相似文献   

13.
提出一种基于网络处理器的入侵防护系统模型,该模型基于异构多核计算架构,采用通用x86/IA多核处理器作为应用和控制CPU,运行检测和控制模块,专用网络处理器作为协处理器实现网络层面的处理,两者之间通过PCIE实现高速通信,从而实现高效能、自适应、可扩展的入侵防护系统.用NFE-i8000网络处理器和Intel Xeon E5620四核八线程的通用处理器实现系统原型,并用PHAD异常检测系统作为入侵检测器进行了模拟实验.仿真结果表明,模型不但可提高系统性能,而且按协议类型进行负载均衡的检测结果比按五元组要好.  相似文献   

14.
针对众核处理器,提出了一种基于计算资源划分机制的动态可重构技术.该技术以虚拟计算群为核心,设计了基于硬件支持的动态可重构子网划分和动态可重构的Cache一致性协议以及动态在线的计算资源调度算法,并对系统级多核仿真平台Gem 5进行了扩展.同时,采用实际测试结果验证了众核处理器中动态可重构技术的有效性.结果表明,动态可重构技术可以提高众核处理器的资源利用率,实现动态可重构的Cache一致性协议以及单一矩形物理子网覆盖的子网划分机制.  相似文献   

15.
设计了一种应用于双载波正交频分复用(DC-OFDM)无线通信系统的高速、低功耗快速傅里叶变换(FFT)处理器.为降低传统并行架构带来的硬件实现开销,提出了一种新型的结合FFT分解的多路并行架构,有效减少了实现所需的乘法器和加法器数目,在提高处理器数据吞吐率的同时,进行了芯片面积的优化.另外,采用提出的处理单元实现不同的基运算,并对基-2、基-22、基-23、基-24不同架构下的定点FFT运算所需的硬件开销进行定量分析,以选择最优的基结构.最后,介绍了旋转因子乘法器的设计.设计实现的128点FFT处理器采用SMIC 0.13μm CMOS工艺,芯片面积为1.44 mm2,最大数据吞吐率达到1GS/s,在典型工作频率500MS/s下的功耗为39.5mW.与现有其他128点FFT处理器相比,减小了面积,节约了功耗.  相似文献   

16.
针对"主核心+协处理器"式异构并行系统采用数据平均划分再分批执行的方法来解决主协式处理架构的额外通信开销时未能充分利用系统资源的问题,提出了一种新的数据比例划分方法.结合系统通信带宽和图形处理器(GPU)的计算能力,将应用数据按比例划分为大小不同的数据块后分批提交给GPU处理,使系统的传输资源PCI-E总线和计算资源GPU在一段时间内并行工作,从而实现了应用通信与计算的重叠.在处理按照比例划分的数据块过程中,尽可能充分利用系统的传输资源和计算资源,以减少数据传输和计算的相互等待时间.实验结果表明,采用数据比例划分方法后的应用性能明显提高,可以有效地重叠通信与计算时间,矩阵相乘和快速傅里叶变换总执行时间比未划分时分别减少了5%和30%左右,比平均划分时分别减少了3%和6%左右.  相似文献   

17.
在嵌入式双核处理器(ARM DSP)平台之上,提出基于嵌入式数据库的网络视频监控系统架构.通过移植嵌入式数据库FUEL在TMS320DM6446音视频开发平台,利用其在多线程环境下对共享数据的管理,实现了多核处理器平台的音视频编解码对数据访问的一致性;并基于FUEL实现了嵌入式视频监控系统,使得系统在嵌入式多核处理器架构上更好地管理多线程应用程序之间共享的数据,进而可靠、高效地进行音视频的网络传输.  相似文献   

18.
随着流体机械基础并行算法的发展,传统的单核处理器已经不能很好地满足先进流体机械研发的技术需求,为此本文深入研究了流体机械的物理模型以及高性能计算机架构特点,设计并实现了能够充分表达物理模型并行性的高效的面向流体机械仿真的层次化并行计算模型(HP2H)。HP2H模型充分考虑流体机械的多层几何结构以及高性能计算机的多层逻辑架构,深入挖掘计算平台、计算模型以及物理模型的并行性,实现从物理模型到计算资源的高效任务映射。依据具体的轴流压气机转子数值模拟的实际应用背景,结合粗粒度并行和细粒度并行对模型进行实现。对HP2H计算模型进行了功能测试和性能测试,当计算核心从36核提升到432核时,计算性能提升约12倍,并行效率达到了100%。实验结果表明,HP2H计算模型不但在正确地对流体机械进行数值模拟的前提下实现了较好的计算性能,并且由于HP2H计算模型结合了粗粒度并行与细粒度并行,因而可以在不同的计算平台上运行,还可以便捷地实现计算规模的扩展,具有良好的可移植性与可扩展性。  相似文献   

19.
分析了网络处理器的一般硬件架构和一些关键技术,介绍了网络处理器的一些应用,重点阐明了在路由器线卡应用中网络处理器处理IP数据包的流程。  相似文献   

20.
本文介绍一台智能机LISP机LISP-M1中的表处理器LP的体系结构.LP作为后端机挂接在主机上、以微程序直接解释主机生成的与LISP语义接近的中间码,从而缩小了LP的机器语言与LISP的语义差别.LP中设有数据字段装配、字段抽取和匹配电路等专用硬件,以支持动态的数据类型检查和数据标记处理,降低执行时的额外开销.LP还使用大容量的高速硬件堆栈未支持深度嵌套调用和递归的求值过程.本文还将说明LP的设计思想和实现技术.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号