首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。  相似文献   

2.
利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错峰访存提高访存带宽。实验结果表明,神威OpenACC移植单核组获得2.26倍加速;时间步长为1时,任务图并行化移植后的该应用可获得2.52倍加速,性能较OpenACC提升11.5%;时间步长扩展至20时,任务图规模随之增加,任务的乱序调度使错峰访存的优势进一步扩大,整体应用达到3.2倍性能加速,性能较OpenACC提升42%。  相似文献   

3.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

4.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

5.
基于Intel第二代Xeon Phi代号为Knights Landing(KNL)众核处理器平台,利用MPI+OpenMP混合编程策略对并行矩量法(Method of Moments, MoM)进行了优化.利用OpenMP编程技术和KNL的计算资源,提高了CPU(Center Processing Unit)使用率;线程的引入,大幅度减少了矩阵填充过程中进程间的冗余积分;为发挥KNL的512位矢量宽度优势,通过向量化优化进一步提高了循环结构的执行效率;对计算密集型、CPU利用率高的矩阵求解过程,通过引入的OpenMP编程策略,减少了MPI(Message Passing Interface)通信时间,加速了求解.数值结果表明,通过在KNL众核处理器平台上的优化,可以极大地提升矩量法计算复杂电磁问题的效率.  相似文献   

6.
随着多核处理器片上集成核数的不断增多,并行任务的调度能力越来越成为制约性能提升的关键因素。文章设计一种面向异构多核计算系统的动态任务调度控制器,主要实现动态监控处理单元的负载情况、动态任务唤醒、乱序任务发射、任务写回安全管理等功能;研究一种降低计算任务结果数据回写双倍数据速率(double data rate, DDR)外存储器次数的方法,大幅节省了访存开销,进一步提升了计算性能。仿真及性能测试显示,在典型应用场景下,与已有的无动态调度功能的任务发射控制器相比,实现了显示并行化编程向任务并行的自动化控制过渡,编程友好度显著提高,在不同类型的测试案例中,分别提升了11.3%~37.9%的计算性能。  相似文献   

7.
近年来,受GPU其高浮点峰值性能的提高和应用领域中大规模科学计算问题的驱动,高性能领域中利用代数多重网格(AMG)求解稀疏线性方程组成为研究热点。针对经典的AMG算法,探究建立阶段(网格粗化)和求解阶段的并行计算结构,提出基于多核异构的AMG并行计算模式。数值实验表明,并行计算模式计算效率相对于串行提高了3~4倍,加速效果明显。  相似文献   

8.
高性能计算机是推动工业发展的重要工具和手段。本文综述高性能计算机发展的几个关键问题,阐明处理器的发展趋势正在过渡到新一代多核心异构并行计算系统过程中,其中多核心缓存设计和多核心异构编程模型设计是关键因素,云计算技术可能成为将来高性能计算的重要推动因素。最后,结合石油勘探中对计算机的需求,以CPU+GPU的异构计算系统为例,阐明高性能计算的重要推动作用。并行算法的开发平台和程序设计方法是影响石油勘探中的高性能计算应用的主要瓶颈;磁盘I/O、高速网络和并行文件系统是制约高性能计算的重要因素。  相似文献   

9.
孤东七区西油藏大规模并行模拟应用研究   总被引:1,自引:0,他引:1  
针对特高含水期油藏精细挖潜的需求,应用流行的Newton-Kry1ov-Schwarz非线性问题求解算法及SPMD并行模式,充分考虑了国产神威计算机的结构特点,解决了处理器间数据通讯、I/O优化等技术瓶颈,有效地提高了软件的并行能力.应用改进的神威版并行软件对孤东七区西油藏模型应用神威机上4、8、16、32、64、80、96、128个CPU开展并行计算,在保证模拟精度的条件下,优化出了最优加速比所需的CPU个数,并对影响加速比的因素进行了深入研究.  相似文献   

10.
提出一种异构多核处理器工程科学计算加速协处理器(ESCA)体系结构,此体系结构可作为协处理器对计算密集型的应用提供计算加速.基于该ESCA协处理器的混合计算系统设计并行静态图像JPEG压缩编码算法的映射与实现,并在四核ESCA处理器原型上对JPEG压缩编码算法进行了性能评测.实验结果表明:针对计算密集型的应用,所提出的ESCA处理器具有良好的计算加速效果.  相似文献   

11.
当今生物医学影像涉及越来越多的成像数据,需要进行快速计算最短曲率值。最短路径算法在这个应用中发挥重要的作用,dijkstra算法就是用于计算源点到其他节点的最短路径的常见算法。过去普遍认为最短路径算法在CPU上的运行速率过低,很难用于交叉学科和曲率测量类型研究的曲率计算。OpenCL架构是基于异构平台的行业标准框架,能够利用GPU作为协处理器,进行通用计算。大脑皮层曲率是生物医学领域研究的热点,该文利用OpenCL在高性能计算领域的巨大优势来进行加速计算,实现了Dijkstra算法的并行编程。实验结果获得了4.73~9.69倍的加速比,表明了OpenCL确实具有很好的加速效果,且对最短路径算法有很好的改进。  相似文献   

12.
为实现高光谱影像数据快速降维,基于nVidia的图像处理单元(graphic processing unit,GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L(MNF-on-Library)算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势.  相似文献   

13.
为实现高光谱影像数据快速降维,基于nVidia 的图像处理单元(graphic processing unit, GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L(MNF-on-Library)算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势.  相似文献   

14.
基于高效能大任务和多任务计算需求以及芯片技术的高速发展,多核处理器进入片上众核处理器时代,但如何将这种硬件能力转变成计算性能的提升,充分利用MPSo C的并行计算能力是该领域亟待解决的问题.文中研究设计了面向片上众核处理器的物理核到虚拟核分配算法(VPD),该算法通过识别任务执行时的阶段状态特征,动态重组物理核并配置成与任务计算需求相适应的虚拟核,在满足任务的计算资源需求的条件下,实现虚拟核最优分配.最后通过实验将VPD算法与不同的多核/众核处理器环境下的主流调度算法进行比较,结果表明:该算法可适用于多种环境,且效能比其他同类算法平均高5%~10%.  相似文献   

15.
利用基于图形处理器(GPU)的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比.  相似文献   

16.
一种高性能、RISC-VLIW融合的多核、可重构数字媒体处理器已经从专利发明顺利形成了一个先进的数据处理器设计平台(Digital Multi-processor Platform)。研发的结果体现若干先进处理器技术的融合。(1)应用:低功耗并行运算处理覆盖数字信号处理(DSP)、数字媒体处理(DMP)和超级并行处理器(SPP)的应用扩展领域;(2)体系结构:精简指令(RISC)和超常指令字(VLIW)处理器融合于同一个可配置的平台;(3)运算能力:处理器群调用异构的通用处理器核,使用两类处理器核实例:通用处理器核(包括ALU等的通用运算)和专用处理器核(包括DDCU的用户自定义运算核);(4)可配置和可重构:硅编译器、SoC集成工具、用户自定义运算单元、多核间的和槽内的流水线、包括运算单元的现场编程;(5)设计自动化平台:专用工具用于设计、分析与验证;与商业电子自动化设计(EDA)流程接口;(6)产品模式:硅知识产权(Silicon IP)、通用处理器芯片系列(IC Series)、定制单片系统(SoC)。命名为Fusion的融合式数字多核处理器平台把数个先进处理器技术集成到一个统一的体系结构和设计环境之中...  相似文献   

17.
利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。  相似文献   

18.
众核芯片系统存在吞吐量低、加速比不能与其片内处理核数的增长成线性比例等问题,无法发挥出相应的计算能力,目前的众核微体系结构并不匹配MapReduce运行时. 针对上述问题,为实现高性能众核芯片系统巨大计算和处理能力目标,文中分析了众核MapReduce的执行模型,基于DOT模型构建了众核存储体系,对其中的片上网络、通信模式、访存流程及基于此的MapReduce存储模式进行了设计. 实验数据表明,和Tile结构相比,基于该三维存储体系的众核系统的吞吐量能提高1.2倍,加速比和片内处理核数接近线性关系.   相似文献   

19.
国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克Py Torch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这一技术壁垒.聚焦于Py Torch中常用算子与MT-3000异构处理器适配方法的研究.针对MT-3000处理器中,部分Py Torch算子难以利用DSP加速核实现加速的问题.设计并实现了PyTorch虚拟算子.通过常用算子的对比实验表明,提出的方法准确可靠,且基本没有性能损失.  相似文献   

20.
设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减轻应用移植给使用者带来的负担.使用通信延迟、带宽测试程序及实际应用程序对其进行了测试,测试结果表明设计实现的MPI在保持高效通信性能的同时,也有效地利用了SPE,发挥了CellBE处理器强大的计算性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号