首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
一种基于循环并行模式的多核优化方法   总被引:1,自引:0,他引:1  
从并行编程模式角度出发,分析了计算稠密型程序基于多核平台的优化方法,并结合循环并行模式与OpenMP、Intel parallel studio工具实现了对部分连接神经演化(PARCONE)模型的多核优化.优化结果表明,基于循环并行模式的设计方法是实现计算稠密型程序多核优化的一种快速有效方法.  相似文献   

2.
采用计算任务量大小的方法,解决了在紧嵌套循环自动并行化过程中存在循环并行化的并行粒度确定问题以及循环自动并行化中数据划分的数据访问局部性问题,在多核系统中实现了紧嵌套循环自动并行化时的数据访问局部性方案和并行化方法,从而构造了一个基于任务量划分的循环自动并行化模型,降低了程序自动并行化中小任务量并行带来的开销.  相似文献   

3.
通过对某具有代表性的基于基元化学反应的串行爆轰计算程序的编制思路和结构进行分析,发现程序中对化学反应的求解花费了大量的计算时间,对程序中这部分进行了基于多进程的并行化处理,并进一步考核了并行化后程序的可靠性和计算效率。结果表明并行化处理后的程序在计算气相爆轰问题时是可靠的。对程序的简单并行化处理,可以充分利用多核电脑及计算机集群等多进程的优势,极大地提高程序的计算效率,达到“四两拨千斤”的效果。  相似文献   

4.
为解决基于多核计算环境下的粒子群优化问题,提出一种面向多核计算的改进粒子群算法.通过引入多核设计模式和方法,分析传统粒子群算法中可以并行执行的部分,并根据已有的多核编程语言,在多核计算环境下,高效、并行地实现粒子群算法.通过实验验证了改进算法在多核计算环境下运行的有效性.  相似文献   

5.
针对多核体系平台上充分、有效地发掘目标程序中各种可用并行性的需求,通过引入"层次关系"、"等价关系"和"特性权重"的支持,提出了一种扩展的TStreams模型,并在此基础上实现了一个基于可声明并行性的程序并行优化框架(FAPOF).该框架支持用户对算法的并行特性进行多角度、多粒度的描述并指定适用的各类并行优化规则.基于...  相似文献   

6.
随着多核处理器被广泛的应用于桌面系统,如何充分利用多核处理器的计算能力,挖掘应用程序的并行性,以充分发挥多核系统的强大计算能力,成为近几年国内外计算机领域研究的热点,多核系统并行程序设计也成为所有专业软件开发人员必须了解和掌握的一项技术.本文阐述了一种以OpenMP为基础的多核并行程序设计方法,研究并提出了两种符合多核系统并行程序设计特征的编程模式:条件同步模式和线程分组竞争模式.实验证明这些方法简单高效.  相似文献   

7.
为提高混合交通微观仿真的运行速度,将多核并行计算技术应用于混合交通微观仿真中.提出混合交通微观仿真的并行化方法,包括基于对串行混合交通微观仿真中各个模块CPU运算时间的百分比分析,确定基于数据并行的任务分解方法,及结合多内核CPU架构特点确定Fork/Join的并行模式.提出基于多核技术的混合交通微观仿真的关键并行算法,包括初始路网分割算法、车辆穿越边界算法及动态负载平衡算法.通过仿真实验验证多核并行计算技术能够提高混合交通微观仿真的运行效率.  相似文献   

8.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

9.
基于微处理器的并行信息处理策略   总被引:1,自引:0,他引:1  
基于现有多核微处理器实现了并行信息处理系统, 该并行信息处理系统利用现有的标准台式机, 通过高速以太网联接, 共同完成复杂计算. 解决了传统高性能并行计算系统造价昂贵、 维护成本高的问题, 提供了一种廉价的并行信息处理策略. 实验表明, 基于微处理器的并行处理系统适于进行并行信息处理和科学计算.  相似文献   

10.
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍.  相似文献   

11.
稀薄气体高超声流动的非结构DSMC的并行化计算   总被引:2,自引:1,他引:1  
 采用非结构化三角网格为基本网格单元,在可变硬球(VHS)分子模型、Borgnakke-Larsen唯象模型、Bird的化学反应几率模型及壁面CLL反射模型的基础上,本文用Fortran语言编制了能够模拟内能松弛、热力学非平衡和化学非平衡的稀薄气体直接模拟Monte-Carlo(DSMC)源程序。针对多核计算机上进行并行计算实现技术,将并行OpenMP的模型应用于DSMC方法,编制了可在多核计算机中进行数值模拟的非结构DSMC并行程序。分别对不同稀薄领域的不同工况高超声速气体绕圆柱流动问题进行数值模拟,得到热非平衡态对飞行器流场的影响。通过数值结果的比较,验证了编制的DSMC并行程序的正确性和合理性,以双CPU、双核计算机为例,并行后的计算效率提高了近一倍。这些数值结果对飞行器流场特性分析和有效地完成飞行器热防护具有重要意义。  相似文献   

12.
并行程序可以充分发掘硬件计算能力并提高程序性能,但是在多核集群环境中编写并行程序十分复杂。该文提出了面向多核集群的并行编程框架,Horde。Horde提供了一组简单易用的消息传递接口和事件驱动(event-driven)编程模型,用以帮助程序员表达算法逻辑中潜在的并行性,将计算分解与底层硬件结构去耦合,从而简化编写并行程序的复杂度,灵活地在不同的底层结构的集群上进行映射并能保持良好的性能。此外,Horde也提供了有效的任务对象迁移机制,可以实现动态负载均衡与在线容错。在128核集群上的实验表明:Horde可以有效执行并行程序,并且可以实现高效的任务对象迁移。  相似文献   

13.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

14.
在现有文献的基础上,电子科技大学计算机科学与工程学院研究了计算机系统结构课程中多核创新实验,体现在多核技术知识点在课程中的设计安排和多核创新实验的构建,并探讨了多核创新实验的设计目标。多核创新实验涵盖硬软件2个方面的实验内容:在FPGA芯片上设计多内核计算机系统及W indows/L inux多核多线程编程。该实验,以加深学生对多核知识点的理解掌握为根基,具有可编程逻辑器件、操作系统与多核新组合的创新特点。  相似文献   

15.
为了提高混合交通微观仿真的运行速度,基于多核并行计算技术构建了一个混合交通微观仿真平台.文中首先从平台功能结构、并行混合交通微观仿真流程设计与实现两个方面对平台进行介绍;其次,设计并实现了该仿真平台的关键并行算法,包括初始路网分割算法、车辆穿越边界算法及动态负载平衡算法;最后,通过仿真实验验证了多核并行计算技术能够大大提高混合交通微观仿真的运行效率.  相似文献   

16.
为有效解决规模庞大的数值计算问题,充分利用机器资源,提高计算效率,基于线性元有限体积格式,通过区域分解法,在三角形网格上提出一种适用于在多核机器或并行系统上运算的并行格式.数值实验结果表明,该格式在各类扭曲网格上,不仅可达到最佳的收敛速度,而且拥有良好的并行效率.  相似文献   

17.
目的设计并实现一种基于数据划分的矩阵乘法的并行算法,将划分的数据交给多个线程同时执行,充分挖掘计算机的性能。方法根据OpenMP并行编程的基本风格,并在Visual Studio2005上搭建能够实现并行编程的环境平台。结果并行算法所花费的时间较非并行算法短。结论通过与非并行矩阵乘法性能进行比较,验证该算法可以有效地利用多核处理器的优势。  相似文献   

18.
In order to improve the concurrent access performance of the web-based spatial computing system in cluster,a parallel scheduling strategy based on the multi-core environment is proposed,which includes two levels of parallel processing mechanisms.One is that it can evenly allocate tasks to each server node in the cluster and the other is that it can implement the load balancing inside a server node.Based on the strategy,a new web-based spatial computing model is designed in this paper,in which,a task response ratio calculation method,a request queue buffer mechanism and a thread scheduling strategy are focused on.Experimental results show that the new model can fully use the multi-core computing advantage of each server node in the concurrent access environment and improve the average hits per second,average I/O Hits,CPU utilization and throughput.Using speed-up ratio to analyze the traditional model and the new one,the result shows that the new model has the best performance.The performance of the multi-core server nodes in the cluster is optimized; the resource utilization and the parallel processing capabilities are enhanced.The more CPU cores you have,the higher parallel processing capabilities will be obtained.  相似文献   

19.
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号