共查询到20条相似文献,搜索用时 62 毫秒
1.
时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法.通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU组成异构机群系统上的并行加运算法,用OpenCL、CUDA和MPI编程模型实现了并行程序.在目前的主流NVIDIA和ATI的GPU平台上,加速的并行FDTD程序相对CPU串行程序和8个CPU核的MPI并行程序,分别获得了超过8倍和1.5倍的加速,并在多个GPU卡上获得了接近线性加速的扩展性能. 相似文献
2.
针对以前红外仿真方法细节差、实时性不高等技术难点,提出了一种新的红外物理模型实现方法。该方法将物理信息与物体的几何模型顶点绑定,提高了对红外场景的描述细节。该方法对物理模型的计算在CPU与GPU之间进行了分配,充分利用了可编程GPU的强大运算能力,有效提高了红外场景生成的实时性。讨论了几种典型探测器效应的添加方法。使用仿真图像来说明所提出方法的有效性,同时分析了该方法的优缺点。 相似文献
3.
本文提出一种改进的红外多类别多目标实时跟踪网络, 在确保跟踪精度的同时, 重新设计无锚框网络结构, 进一步降低网络的参数量与推理时间。通过优化目标特征向量, 进一步提高识别精度, 同时简化与改进跟踪流程。此外, 通过细化分析相关流程执行时间, 选用GPU与CPU分别执行最优运算, 提升跟踪整体运行速度。上述方法被应用于低空海面红外目标跟踪数据集中。结果表明, 在本文所提的综合评价指标下, 所设计的网络相较其他轻量级网络评分提高1.78, 且运行速度在NVIDIA Jetson Xavier NX中达到52.37 FPS, 满足边缘端实时运行需求。 相似文献
4.
5.
6.
针对天线组阵合成系统对于宽带、高速、并行信号的实时合成需求,设计了基于图形处理器(graphic processing unit, GPU)的天线组阵信号时延补偿方法。首先,分析了典型的整数时延补偿方法在GPU平台上实现的可行性,设计了基于数据块重叠保留的整数时延补偿方法。然后,对比了典型的小数时延补偿方法的优劣,设计了适合于GPU并行加速的频域小数时延补偿方法。最后,对基于GPU的天线组阵信号时延补偿方法进行了实验验证。多次实验测试结果表明,在确保时延补偿正确性的基础上,基于GPU的时延补偿方法相比传统串行CPU时延补偿方法加速比提升了约18倍,采用基于GPU的时延补偿方法可实现对多天线信号的实时合成。 相似文献
7.
8.
9.
10.
利用可编程图形硬件的高级语言Cg在GPU上实现了二维流体的实时模拟,充分发挥GPU的并行计算能力加速了模型的解算。采用半拉格朗日方法来求解纳维-斯托克斯方程,保持流体模拟的稳定性;引入了漩涡约束因子弥补模拟中出现的数值耗散;采用纹理来存储计算过程中用到的数据,并将向量数据各个分量存储到纹理单元的4个颜色通道,减少了GPU计算次数;实现结果表明,对二维流体的模拟是高效率的。 相似文献
11.
针对相位干涉仪测向系统对于大量高速实时信号的处理需求, 设计了基于图形处理单元(graphic processing unit, GPU)的频域互相关(简称为FX)鉴相算法, 完成了相应的并行程序设计, 进行了实时数据的测试验证。为充分发挥GPU强大的浮点运算能力和并行数据处理能力, 将涉及大量并行高速数据计算的核心鉴相算法加载在GPU中, 实现了高速并行数据的相关处理和相位提取; 利用中央处理器(central processing unit, CPU)完成了数据调度、分发和简单的数据处理功能。实验测试结果表明, 在较好地保证鉴相精度的条件下, 本文设计的基于GPU的鉴相算法, 其数据处理速度是基于CPU平台的140倍左右, 鉴相速度明显提升, 较为圆满地实现了实时性、可靠性和准确性的设计初衷。 相似文献
12.
基于可编程图形处理器的实时景深模拟 总被引:3,自引:0,他引:3
一幅具有景深效果的图,其显著特征是图像部分清晰部分模糊。基于这一特点,在景深的计算机仿真中,首先由计算机对三维场景成像,并将该场景存储为纹理,此纹理为清晰的场景纹理。成像时通过顶点编程,于α通道中存储了物体距离聚焦面的深度信息。然后对场景纹理进行多次均值滤波生成模糊的场景纹理,最后以清晰场景纹理的α值为插值系数将两幅纹理进行融合而模拟出景深效果。算法充分利用了图形处理器(GPU)的多纹理技术和可编程性,将运算从CPU转移至GPU,很好地仿真了景深效果,且满足实时性要求,可应用于虚拟现实系统。 相似文献
13.
一种基于现代GPU的大地形可视化算法 总被引:4,自引:0,他引:4
地形渲染在计算机游戏,飞行模拟和视景仿真等领域的应用越来越广泛,随着渲染场景复杂度的增加,每次需要绘制的地形数量也越来越庞大。同时,新一代的显卡绘制能力的不断增强,原有的许多地形渲染算法已经不能很好的满足用户需求。在总结现有算法的基础上,提出了一种基于现代GPU的地形渲染算法。该算法同样使用高程图作为地形数据,将地形分成很多小块,每次渲染时以块为单位,所有小块使用四叉树组织成一个层次化结构,不同层次的节点代表了不同细节层次的地形范围,并且采用了与Mipmap类似的细节简化方式,渲染时不需要对分块重新简化。为了保证CPU和GPU的负载平衡,将一些复用率高的地形分块缓存到显卡中,大大降低带宽需求。实验证明该算法可以更为充分利用图形处理器的加速能力,既能满足渲染精度要求也能达到一个较高的帧率。 相似文献
14.
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit, GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier, SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream, CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。 相似文献
15.
随着通用图形处理器(general-purpose graphics processing unit, GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language, OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支持在包括图形处理器(graphics processing unit, GPU)在内的多种微处理器架构上开发和运行并行程序。针对OpenCL平台开发了一套较完整的GPGPU微基准测试程序集,全面测试了GPU的单精浮点运算能力、GPU体系结构中各类存储单元的读写带宽及最佳访问模式等。这些面向OpenCL的GPGPU微基准测试程序,对OpenCL及GPGPU软件架构的设计者及使用者,均具有重要的实用和参考价值。 相似文献
16.
研究基于GPU和小波变换的海量地形数据实时绘制技术,通过小波变换构造地形网格的动态多分辨率模型,利用小波完备的数据重建功能,实现不同分辨率数据间的实时转换,减少从慢速外存向内存读数据的时间开销,提高绘制效率。通过小波渐近绘制算法解决不同分辨率模型间的平滑过渡问题,通过扩大了小波变换的采样范围解决块间小波变换的边界问题,通过顶点数据拟合算法解决相邻地形块间的裂缝问题,优化GPU的地形遮挡剔除算法,挖掘GPU的通用计算能力,在加速几何绘制的同时加速小波变换,进一步提高算法的效率。 相似文献
17.
分布式并行绘制集群节点可以配置多核CPU和多个GPU构建节点内多CPU多GPU系统。现有的节点内并行绘制模型既没有充分发挥多核CPU的强大计算能力,还将绘制、读回和合成阶段串行耦合在一起导致了大量的GPU闲置停顿,严重影响了节点内并行绘制性能。提出了一种节点内高效的并行绘制模型,通过软件绘制与硬件绘制相结合的方法将硬件绘制与图像合成分离,同时利用DMA异步传输机制,构建了节点内绘制、读回和合成三段并行绘制流水线。与现有节点内并行绘制模型相比,并行混合绘制模型不但降低GPU资源闲置率,而且提高了CPU资源使用率。理论分析与实验表明相同应用采用并行混合绘制模型的性能可以达到现有模型的3~4倍,并且具有更好的数据扩展性、性能扩展性。 相似文献
18.
19.