首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于自主开发的并行软件包HPSEPS所提供的大规模对称特征问题并行求解器,讨论了对称特征问题的并行计算方法,给出了HPSEPS的架构.HPSEPS软件包开发基于多级并行实现技术,并提供包括求解稠密和稀疏特征问题在内的多个并行求解器.在深腾7000平台上对不同大规模特征问题的并行求解进行了性能测试,实验结果表明HPSEPS在上千处理器核上具有很好地可扩展性.通过第一性原理,在上千处理器核上将Si金刚石结构计算由400个原子提升到2 000个原子,并给出了1 200个原子碳纳米管和纳米量子点计算.  相似文献   

2.
运用大规模分子动力学并行开源代码NAMD测试了深腾7000GGPU集群的性能.在配备有Teslac1060与双路4核CPU的节点上,分别对烟草花病毒(STMV),血脂蛋白(ApoA1)与Tiny这3类分子进行了单节点与多节点的测试.测试结果表明:GPU相较于CPU能获得平均2至8倍性能提升,可为大规模分子的模拟提供高性价比的解决方案.然而,多节点下GPU的利用率却有所降低,其并行扩展性能也受到一定限制.另外,一些重要的分子结构构建的指标,如范德华力静止点的值也在一定程度上影响着模拟性能.  相似文献   

3.
在国产百万亿次超级计算机曙光5000A上进行了天体大规模数值模拟软件的性能和可扩展测试实验,详细介绍了软件中的测试程序以及测试环境和过程,并对测试结果进行了分析.对于80×80×50的网格规模,采用每节点4进程测试了16~128个处理器核,每节点8进程、16进程分别测试了16~512个处理器核,相对加速比最终分别达到5.33、10.48和12.57,并行效率分别达到66.66%、32.58%和32.29%.对于160×160×100的网格规模,测试了每节点16进程的64~8 192个核的性能,最大相对加速比为12.46,并行效率为9.73%.测试结果表明,曙光5000A具有良好的性能,测试结果对软件下一步的优化研究具有重要的指导意义.  相似文献   

4.
采用大规模并行计算进行钛合金中片层组织生长相场模型的数值模拟.针对Allen-Cahn和Cahn-Hilliard等相场模拟方程,在均匀网格上采用时域有限差分显式时间步进和算子分裂的数值算法.基于消息传递接口(MPI)实现三维区域分解和计算与通信重叠的并行算法.在深腾7000上通过测试,显示程序具有良好的可扩展性.在1 0243计算网格上使用4 096核的并行效率达到94.2%,每个时间步耗时约0.2s.  相似文献   

5.
从基本流动控制方程及数值离散、多重网格、并行算法等方面详细阐述了混合网格框架下计算流体力学软件的基本原理,提出了采用三重嵌套循环结构在时间推进格式中实现多重网格加速及并行计算技术的主流程设计方案;同时给出了高精度混合网格并行计算软件在深腾7000系统上的大规模并行测试结果以及在某型民用飞机高升力流场数值模拟中的应用.结果表明:此高精度混合网格并行计算软件在采用千万网格点规模的大型飞机高升力复杂流场计算时,不仅计算结果与实验结果符合较好,且在2 048核并行计算时仍具有很好的并行可扩展性,计算效率不低于80%.  相似文献   

6.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

7.
为了解决变电压处理器上以延长电池使用时间为目标的任务调度问题,提出一种基于控制步的电池感知任务调度算法.实验结果表明: 在电池感知优化最有效率的范围内, 该算法跟传统的简化算法相比,在计算复杂度相当的情况下,电池代价降低6.1%, 实际消耗电荷降低9.4%, 而跟迭代算法相比,电池代价下降2.5%, 实际消耗电荷略微增加,但是算法的运行时间平均下降99.7%.该算法能有效地降低系统能耗和延长电池使用时间.  相似文献   

8.
为缩短堆垛机在巷道堆垛式立体车库内运行时间、顾客等待时间,提高立体车库效率,提出了一种集束搜索算法,用于优化堆垛机运行路径.通过对实体运行立体车库的分析,建立了立体车库排队等待的数学模型,再结合实际车库库位布局,以堆垛机运行距离、顾客平均等待时间和平均等待队长为衡量指标,采用MATLAB软件编写仿真程序,分析对比了在一定库位容量下不同库位布局方式对整体运行效率的影响,并与就近存取原则下各项运行指标进行对比.结果表明:在4层6列库位布局下,立体车库各项运行指标均最低,且使用集束搜索对最优库位进行选择时比就近存储运行距离缩短了约50%,顾客平均等待时间和平均等待队长缩短了约31%和76%.因此,集束搜索在对立体车库选择合理库位布局时有较好的效果.  相似文献   

9.
为了研究活性粉末混凝土(RPC)梁柱节点的抗震性能,本文运用有限元软件ABAQUS,对22个RPC梁柱节点进行分析,得到各节点的滞回曲线和骨架曲线,研究柱端轴压比、节点核芯区箍筋配筋率和梁、柱纵筋配筋率对RPC梁柱节点的滞回特性、延性、承载力等抗震性能的影响规律.研究发现,RPC梁柱节点与高强混凝土梁柱节点受力变化规律基本一致.随着轴压比的增加,RPC梁柱节点延性显著下降,当轴压比低于0.6时,构件极限承载力随轴压比增加而增加,当轴压比高于0.6时,构件极限承载力开始呈现下降趋势;随着节点核芯箍筋配筋率的增加,延缓了构件强度与刚度的退化,并使构件的延性、极限承载力有所提升,当节点核芯配箍率低于1.01%时,构件的承载能力和塑形变形能力较差;随着梁、柱纵筋配筋率的增加,构件极限承载力及延性有所提升.  相似文献   

10.
针对多核编程模型运行时环境易造成处理器核资源竞争加剧以及可扩展性较差等弊端,基于动态反馈控制思想,将资源分配、运行时控制、任务执行视为有机整体,提出了自适应协同调度模型ACSM.ACSM采用集中式与分布式相结合的协同机制,动态调节处理器核资源在不同应用负载间及其内部的分配与管理.ACSM的优势在于充分体现了多核编程模型良好的可编程性和可移植性,消除了传统多核运行时环境显式指定核数的弊端,增强了处理器核资源分配的高效性和自适应性.实验结果表明,ACSM在提高多核编程模型易用性的同时,减少了系统处理器核资源的不良竞争,提升了系统的整体性能和资源利用率.与仅依赖多核编程模型运行时环境的调度算法相比,ACSM使应用程序的运行时间缩短了近50%,并且随着应用程序数量的增加效果更加显著.  相似文献   

11.
介绍Condor的工作原理和Condor的检查点机制.对Condor的检查点机制进行了改进,实现了进程迁移时间的减少,减少了作业运行时间,同时还削弱了目标节点对源节点的依赖性.通过一个具体的作业调度程序成功地测试了Condor的检查点的正确性、检查点功能的可用性、检查点库提供的一些编程接口API的可用性和对Condor检查点机制改进的可行性.  相似文献   

12.
针对软件代码研究的复杂性,研究软件类结构中最重要的核心部分,提取基于软件网络的软核,以降低软件理解与度量的难度.并通过一个以软核概念为基础的软核剥离算法进行了一定样本量上,软件软核的研究.分析结果表明:软核的层次与软件的升级与发展,即软件生长成正比关系.软件网络的软核每个层次中节点数与软件网络总节点数之比在软件生长过程中会趋近S模型.软件软核的S模型趋近现象在软件的生长过程中,可以被用来研究度量软件的层次性构成.软核的提取可以用来简化研究人员对软件的理解,聚焦软件设计、实现、测试时的重点类.  相似文献   

13.
提出了一种基于硬件加速的NIOS-Ⅱ Turbo解码器的实现.该方案首先构建了由两个并行级联的RSC编码器组成的编码器和由两个相同的SOVA解码器组成的解码器所构成的Matlab原型,仿真结果表明解码器中误码率在每次迭代中都有下降(下降至10-4),除了低信噪比情况(低于-5dB).然后,描述并比较了两种基于FPGA实现的解码器.第一种是由一个运行在NIOS II快速型软核处理器的软件实现,第二种是在第一种方案中加入了硬件加速器.从硬件解码过程加速实施的结果来看,BER大致和软件解码实现相同,但执行时间减少了25%34%,当解码迭代的次数增加1至20时,与软件解码实现相比,硬件加速的方法对资源的需求增加了10%34%,当解码迭代的次数增加1至20时,与软件解码实现相比,硬件加速的方法对资源的需求增加了10%16%.  相似文献   

14.
针对当前多处理器系统中的散热瓶颈问题,基于处理器动态速度调节技术,提出了一种在线低功耗调度算法(PEQUI).PEQUI以动态均衡算法(EQUI)为基础,公平地分配处理器资源,依据处理器功耗与运行速度间存在非线性关系,以正比于系统任务数的方式调节处理器运行速度.与传统低功耗调度算法相比,PEQUI仅基于当前待调度任务的信息进行决策,决策参数少.以能量消耗与任务执行流时间为评价算法性能的指标,利用在线竞争分析方法证明了PEQUI算法与最优离线算法相比可达到常数竞争比(10).模拟结果表明,PEQUI比最近到达处理器共享算法(LAPS)和恒速EQUI算法能更好地优化系统整体性能和能量消耗.在相同负载情况下,与LAPS相比,PEQUI在降低功耗的同时系统平均运行时间也降低了近7%.  相似文献   

15.
基于多目标粒子群优化的服务选择算法   总被引:3,自引:0,他引:3  
基于多目标粒子群优化算法提出一种高效的服务选择算法(MOPSOSS).首先将服务选择问题建模为带QoS约束的多目标组合优化问题;其次,根据支配的概念构造远小于原子服务集的新子服务集;最后基于多目标粒子群优化算法求解由新子服务集构成的服务选择问题,从而获得一组满足约束的pareto最优解.理论分析表明,MOPSOSS能正确、高效地求出原问题的全局最优解.与遗传算法(GA)的对比结果表明当问题规模大于150时,MOPSOSS的平均运行时间仅为GA的7%,求出的解的个数是GA的1.15倍,75%的解能支配GA求出的解,分布广度是GA的1.5倍.随着约束强度的增加,MOPSOSS的平均运行时间减少,而解的质量并无显著下降.与GA相比,MOPSOSS能用更短的时间求出更多高质量的解.  相似文献   

16.
在EM效应下,以众核流程序为软件模型,建立了2D-Mesh结构众核处理器的可靠性模型.仿真研究表明:对于同一众核平台,当总体负载一定时,随着被分配任务核心的增加,单个任务周期内的处理器核心老化效应增大;当被绑定核心的数量一定时,核心在处理器上的位置越分散,核心的老化效应越低.研究的结论有利于高可靠众核系统的设计.  相似文献   

17.
许多高性能嵌入式处理器都引入了多级缓存、硬件预取及软件预取等机制,为使支持软件预取的硬实时任务具有执行时间的可预测性,提出一种支持软件预取的缓存WCET分析方法. 该方法对多级缓存抽象解释模型进行了软件预取语义扩展,分析了软件预取对任务的最坏情况下性能和能耗的影响. 实验结果表明,该方法能够对支持软件预取的多级缓存行为进行有效分析;同时软件预取优化技术可使某些访存缺失较大的硬实时任务WCET平均减少22.9%,能耗平均降低24.1%.   相似文献   

18.
基于并行计算中将相同数据模块传递给所有处理器的实验,评估并比较了MPI-1标准化库中点对点通信与广播通信的性能.在延迟方面性能的比较是通过改变处理器的数目和数据模块大小来实现的,而工具Jump-shot-4则用于MPI通信程序性能的详细测试.  相似文献   

19.
三维众核片上处理器的研究近年来逐渐引起了学术界的广泛关注.三维集成电路技术可以支持将不同工艺的存储器层集成到一颗芯片上,三维众核片上处理器可以集成更大的片上缓存以及主存储器.研究三维众核片上处理器存储架构,探索了集成SRAM L2cache层,DRAM主存储器层等,对三维众核片上处理器性能的影响.从仿真结果可知,相比集成1层L2cache,集成2层L2cache的三维众核片上处理器性能最大提高了55%,平均提高34%.将DRAM主存储器集成到片上最大可以提高三维众核片上处理器80%的系统性能,平均改善34.2%.  相似文献   

20.
设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减轻应用移植给使用者带来的负担.使用通信延迟、带宽测试程序及实际应用程序对其进行了测试,测试结果表明设计实现的MPI在保持高效通信性能的同时,也有效地利用了SPE,发挥了CellBE处理器强大的计算性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号