首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
本文是对多核程序设计的一种探索,在OpenMP模型下以赫夫曼算法为基础设计并行压缩程序.首先对传统的串行程序进行分析,使应用程序开发人员了解程序行为、发现性能瓶颈、明确优化方向.再用OpenMP的基本结构进行并行程序的设计之后,借助开发工具对并行程序进行优化和调试,得到改进方案.然后在双核处理器上分别运行并行程序与串行程序,将两者进行性能上的比较,实验结果证明性能得到很大程度地提高。  相似文献   

2.
并行程序的应用在提高程序运行效率的同时,也带来了不确定性的错误.这种错误往往难以复现,传统的调试工具越发难以满足并行程序的调试需求.据此提出了一种面向并行程序错误检测以及确定性回放的方法,针对并行程序中容易发生的数据竞争、死锁、原子性违反这几类错误进行检测判断;对并行程序的运行进行插桩以保证程序重复执行时的次序一致.在此理论基础上设计实现了Eclipse插件.通过试验,该工具可以对并行程序易发的错误进行有效的检测判断,较大程度地减少程序调试的工作量.  相似文献   

3.
化学驱软件中化学平衡的并行计算   总被引:3,自引:0,他引:3  
为了探索化学驱油藏数值模拟软件高效的整体并行化方案 ,对 DQCHEM2 .0软件中化学平衡计算部分进行并行化改造 ,设计了两种区域分解并行化的方式。一种方式是将整个区域按 CPU数进行分解 ,每个 CPU计算一个子域 ;另一种方式是按照额定的子域中网格单元的数量进行分解 ,每个 CPU将计算多个子域。比较而言 ,前者数据传输量少 ,而后者有利于负载平衡。在并行程序中 ,采用 MPI消息传递库实现数据的传输。测试结果显示了较好的局部并行效率。 8个 CPU的加速比达到 6.4。对测试数据的分析表明 ,两种区域分解方法适用于不同的情况  相似文献   

4.
将并行计算方法应用于含运动边界流场的数值模拟,采用弹簧方法生成非结构运动网格.并行程序结构采用主从模式,主进程只负责数据的发送和接收,每个从进程的计算任务对应一个子区域.通过守恒型ALE(Arbitrary Lagrangian-Eulerian)方程的求解,对NACA0012翼型振动问题进行了数值模拟,并对不同分区数目情况下的计算时间、并行计算加速比和并行计算效率进行了比较.算例结果表明,随着分区数的增加,进行计算CPU的效率先增加后下降,而并行计算的加速比不断增加.  相似文献   

5.
针对MPI、OPENMP并行程序各自存在的缺陷,将MPI与OPENMP结合起来,实现了MPI/OPENMP混合并行编程;通过实验对MPI、OPENMP并行程序及MPI/OPENMP混合并行编程进行了分析.实验结果表明:MPI/OPENMP混合并行编程可以大大减少通信量,其效率和加速比均优于纯MPI并行程序,克服了MPI并行程序中因粒子分布不均匀使负载不均衡而导致的程序性能下降的问题,使得可以利用集群中的更多结点来进行计算,缓解了MPI并行程序的通信延迟问题;同时,MPI/OPENMP混合并行编程克服了OPENMP并行程序依赖于单台计算机处理能力和存储空间的问题,大幅度提高了模拟规模.  相似文献   

6.
稀薄气体高超声流动的非结构DSMC的并行化计算   总被引:2,自引:1,他引:1  
 采用非结构化三角网格为基本网格单元,在可变硬球(VHS)分子模型、Borgnakke-Larsen唯象模型、Bird的化学反应几率模型及壁面CLL反射模型的基础上,本文用Fortran语言编制了能够模拟内能松弛、热力学非平衡和化学非平衡的稀薄气体直接模拟Monte-Carlo(DSMC)源程序。针对多核计算机上进行并行计算实现技术,将并行OpenMP的模型应用于DSMC方法,编制了可在多核计算机中进行数值模拟的非结构DSMC并行程序。分别对不同稀薄领域的不同工况高超声速气体绕圆柱流动问题进行数值模拟,得到热非平衡态对飞行器流场的影响。通过数值结果的比较,验证了编制的DSMC并行程序的正确性和合理性,以双CPU、双核计算机为例,并行后的计算效率提高了近一倍。这些数值结果对飞行器流场特性分析和有效地完成飞行器热防护具有重要意义。  相似文献   

7.
ABEEMσπ/MM模型程序中,计算静电相互作用能非常耗费机时.针对原串行程序中多个循环相互嵌套的求解部分,进行循环带状划分并行化处理.经测试表明,利用新编制的并行程序进行动力学模拟,并行加速比以线性趋势提高、求解静电相互作用能速度大幅度加快、尤其是针对原子数较多的分子体系效果比较理想.利用36个CPU,对于位点数为10 000左右的蛋白质体系,进行1ns的动力学模拟,至少可以节省1年左右的时间,明显地提高了研究蛋白质体系性质的效率.  相似文献   

8.
对于精度要求为亚毫秒级的延时及其测量,需用CPU的时钟周期数除以CPU主频得到.时钟周期数可以用简单的汇编语言获得,因此,如何测准CPU的主频成为关键问题.本文利用TickCount变化的瞬间作为起始和结束时间,并且通过判断时钟周期数之差的大小,系统地消除由于进程切换所引起的周期数的波动,其精度优于10μs.实验结果证明,本方法可以高精度地测量CPU的主频进而精确测量延时.  相似文献   

9.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。  相似文献   

10.
ARC700是一种R ISC和DSP相结合的CPU体系结构,由于具有DSP结构和指令,在进行音频解码时具有较高的效率.针对FDM3000芯片,提出使用部分汇编和C语言结合的优化技术,可以在25MHz的CPU运行速率下实时解码MP3码流,实践证明该优化技术效果明显.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号