首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 494 毫秒
1.
多核CPU-GPU异构平台下并行Agent仿真负载均衡方法   总被引:1,自引:0,他引:1  
多核中央处理器(central processing unit, CPU)图形处理器(graphic processing unit, GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CPU-GPU异构平台下并行Agent仿真的负载均衡问题,建立了面向多核CPU-GPU的并行Agent仿真多层负载分配模型,提出了基于带约束的k-means空间聚类算法的并行Agent仿真静态负载划分方法和动态负载均衡策略,并给出了划分子集间的可交互性判定,以过滤掉大量不会发生交互关系的Agent之间的交互判定计算。最后通过实验验证了本文提出方法的有效性。  相似文献   

2.
多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation, PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,还缺乏一般性的理论方法来指导并行Agent仿真将多核CPU和GPU的计算资源充分利用起来。通过分析多核CPU-GPU异构并行架构的特点,在方法论层面上建立了并行Agent仿真在多核CPU-GPU异构平台下的多层负载分配模型,并根据基于Agent的仿真的执行结构,提出了对基于Agent的仿真的计算结构、数据结构进行重构的方法,以适应异构的硬件架构。最后对基于多核CPU GPU的并行Agent仿真性能进行了实验分析。  相似文献   

3.
空中复杂目标对背景红外辐射的散射的并行计算   总被引:1,自引:0,他引:1  
提出一种快速计算非朗伯面空中复杂目标对背景辐射的散射的方法。使用Modtran软件计算天地背景红外辐射亮度。将复杂目标表面划分成三角面元并在探测方向进行遮挡消隐处理,在图形处理器(graphic processing unit, GPU)内按背景光入射方向划分计算线程,线程内利用五参数双向反射分布函数(bidirectional reflectance distribution function, BRDF)模型计算可见面元对一个方向入射的红外辐射的散射亮度。把所有可见面元的计算结果加权平均获得复杂目标对背景辐射的散射亮度。通过对某飞机目标的计算结果对比发现,基于GPU的并行算法计算速度比中央处理器(central processing unit, CPU)提高了百倍以上。  相似文献   

4.
针对合成孔径雷达(synthetic aperture radar,SAR)分布式场景回波仿真计算量巨大的问题,提出了一种结合改进的同心圆算法与图形处理器(graphics processing unit, GPU)技术的高效SAR回波仿真方法。首先,针对常规同心圆算法精度较低造成的图像信噪比低的问题,提出了一种改进的同心圆算法。其次,为了充分发挥GPU处理核之间的并行优势,对该算法的GPU并行处理进行了深度优化,进一步提升了仿真速度。具体方法是,根据并行度的高低设计核函数,确定了先采用“线程外推”实现部分目标回波的同心圆累加,再用“归约相加”实现所有目标回波的累加。最后,与常规GPU方法进行了实验对比,验证了所提方法的精确性和高效性。  相似文献   

5.
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit, GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier, SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream, CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。  相似文献   

6.
针对密集杂波条件下的目标检测与跟踪问题,开展极大似然概率数据关联(maximum likelihood probabilistic data association, ML-PDA)算法优化与实时计算问题研究。在算法层面,通过在极大化对数似然比(log likelihood ratio, LLR)过程中引入粒子群优化(particle swarm optimization, PSO)方法,并进一步提出基于观测引导的PSO播撒粒子方式,提升算法的计算效率;在实现层面,提出基于图形处理器(graphic processing unit, GPU)的PSO实现策略。仿真实验结果说明了基于观测引导PSO算法搜索的有效性。在GPU平台上实现该算法获得显著的加速比,验证了所提出方法具有工程实时性。  相似文献   

7.
针对天线组阵合成系统对于宽带、高速、并行信号的实时合成需求,设计了基于图形处理器(graphic processing unit, GPU)的天线组阵信号时延补偿方法。首先,分析了典型的整数时延补偿方法在GPU平台上实现的可行性,设计了基于数据块重叠保留的整数时延补偿方法。然后,对比了典型的小数时延补偿方法的优劣,设计了适合于GPU并行加速的频域小数时延补偿方法。最后,对基于GPU的天线组阵信号时延补偿方法进行了实验验证。多次实验测试结果表明,在确保时延补偿正确性的基础上,基于GPU的时延补偿方法相比传统串行CPU时延补偿方法加速比提升了约18倍,采用基于GPU的时延补偿方法可实现对多天线信号的实时合成。  相似文献   

8.
针对大规模多阶段任务系统(phased-mission system, PMS)的可靠性求解,引入并行计算思想,通过分析传统的一致化方法(uniformization method, UM),基于Nvidia提出的CUDA(compute unified device architecture)架构,实现了基于图形处理器(graphics processing unit, GPU)的UM并行算法(GPU-UM),并采用合并访问和共享内存技术,提高了GPU中数据负载的利用率;PMS中不同阶段参与任务的设备及其数量通常会发生变化,导致阶段间依赖性处理困难。通过对新设备加入、已有设备暂时退出任务或完全退出任务等3种基本情况的分析,提出了阶段间状态映射机制,实际中的阶段变化情况更加复杂,可综合上述3种基本情况进行处理。通过算例对比了GPU-UM、CUDA-UM、传统UM和Krylov子空间等4种算法的计算时间和可靠性结果,分析表明GPU-UM算法的计算耗时优于其他方法,且结果精度也能满足可靠性计算需求;同时,通过对比分析UM算法和Krylov子空间算法与仿真方法的结果误差,表明提出的阶段间映射机制能够正确处理PMS中阶段间的复杂依赖关系。  相似文献   

9.
由于数值色散及时域迭代的特点,利用时域有限差分(FDTD)进行电磁仿真往往是十分耗时的,通用图形处理器(GPGPU)技术为其提供了解决方案。通过分析FDTD算法及其数值稳定条件,阐明其天然并行优势。基于计算统一设备架构(CUDA)模型,提出了利用图形处理器并行FDTD仿真的实现方法,并与传统CPU计算相比较,验证了并行结果的精确性,分析了各种尺度网格下速度提升情况,通过进一步优化并行方法,计算速度与单CPU相比可提升数十倍。  相似文献   

10.
针对相位干涉仪测向系统对于大量高速实时信号的处理需求, 设计了基于图形处理单元(graphic processing unit, GPU)的频域互相关(简称为FX)鉴相算法, 完成了相应的并行程序设计, 进行了实时数据的测试验证。为充分发挥GPU强大的浮点运算能力和并行数据处理能力, 将涉及大量并行高速数据计算的核心鉴相算法加载在GPU中, 实现了高速并行数据的相关处理和相位提取; 利用中央处理器(central processing unit, CPU)完成了数据调度、分发和简单的数据处理功能。实验测试结果表明, 在较好地保证鉴相精度的条件下, 本文设计的基于GPU的鉴相算法, 其数据处理速度是基于CPU平台的140倍左右, 鉴相速度明显提升, 较为圆满地实现了实时性、可靠性和准确性的设计初衷。  相似文献   

11.
本文以Transputer硬件环境和FDS(Fortran Development System)软件环境为基础,对图形绘制及并行处理进行了研究,通过一个具体绘图问题并行处理的实例,详细介绍了实现绘图的过程及其并行编程方法。同时,本文得出绘图问题高效并行编程的一般性结论。  相似文献   

12.
一些复杂的科学和工程问题,需要相当高的运算能力,这些不是传统的计算机所能胜任的。先进的计算机结构离不开并行处理的概念。多处理机硬件结构主要是由各处理机和存贮器之间所用的内部连接结构确定的。本文分析和介绍一种由美国国际并行计算机公司研制的具有多路存取存贮器的并行处理计算机结构和原理。  相似文献   

13.
一种新型多DSP并行计算结构及其应用   总被引:13,自引:2,他引:11  
传统的雷达信号处理系统的设计方法是针对特定应用的,因此系统的通用性差,而具有超级计算机体系结构的通用高速实时雷达信号处理系统有望解决这一问题。该系统的关键部件为担负具体计算任务的处理结点。首先提出了一种新型的、由5片ADSP-2106x构成的多DSP并行计算结构。它具有运算能力强、I/O带宽大、通信手段多样、能灵活地改变拓扑结构、可扩展、通用性强等特点。并且以此并行计算结构为核心设计实现了通用高速实时雷达信号处理系统的处理结点。  相似文献   

14.
随着外辐射源雷达技术的发展,实时处理能力成为制约外辐射源雷达系统性能的重要因素。现有的处理手段仅适用于较小采样率信号以及低速目标的情况,对于数字电视信号等大带宽高采样率的外辐射源雷达信号以及高速小目标的情况很难满足实时性的要求。提出了一种基于图形处理器的外辐射源雷达信号处理实时实现方法,能够提高分块最小均方误差算法和Keystone算法的并行处理能力。通过真实数据验证表明基于所提结构的实现方法能够满足外辐射源雷达信号处理实时性的需求。  相似文献   

15.
国产高性能计算(high performance computing,HPC)系统研制世界领先、芯片架构百花齐放,系统运营依托国家超算中心形成良好发展态势。国产高性能并行应用在若干关键技术点方面世界领先,应用支撑环境发展迅速,但工业软件和队伍建设挑战巨大。在后摩尔时代,需要立足人类文明进步来推动并行应用软件生态建设,工业软件要从产品角度全方面与国外商业软件进行对标;重点关注应用软件云、软硬件协同优化、面向领域的定制芯片架构和定制编译技术;在开源模式、知识产权保护和人才评价方面要与时俱进,从制度上促进应用软件生态的繁荣。  相似文献   

16.
针对水下对抗建模中随机误差加入的合理性及复杂环境实时细致再现的问题,提出了一种基于高层体系结构(high level architecture, HLA)和军用仿真平台Flames构建一个可定制、可重用的水下对抗视景系统的设计方法,引入基于分形布朗运动(fractional Brownian motion, fBm)特征约束的随机误差来构建仿真模型,同时开发出基于开放场景图(open scene graph, OSG)视景引擎的海面和水下空间,充分利用图形处理单元(graphic processing unit, GPU)实现海面和海底地形等的快速纹理映射及渲染。该系统能适应潜舰、直升机潜等多种水下对抗样式的视景仿真需求。实际应用结果表明,该系统具有较好的实时性和视觉效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号