期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

2.

基于GPU的目标识别算法的并行化研究

《太原理工大学学报》2015,(6)

针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。相似文献

3.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

4.

基于Matlab平台有限元方法的GPU加速

苏辉邱夏青马文鹏《信阳师范学院学报(自然科学版)》2018,(4)

基于Matlab平台,采用有限元方法实现了对二维拉普拉斯(Laplace)方程在GPU平台上的加速.通过对物理问题的分析与物理模型的构建,完成总体CSR格式存储的刚度矩阵的生成;使用Matlab和CUDA混合编程,在Matlab平台上实现该有限元问题的并行加速;并结合Cu Blas数值计算库采用PCG算法求解装配后的大型线性稀疏方程组,从而高效地迭代出各格点的速度势.该算法既充分发挥了Matlab在数值计算方面的高效性,又充分发挥了GPU在细粒度并行加速方面的优势. 相似文献

5.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

6.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献

7.

使用GPU实现快速K近邻搜索算法

魏紫《科技信息》2009,(27):45-45

CUDA（Compute Unified Device Architecture,计算统一设备架构）,是由NVIDIA开发的并行运算架构,它基于C语言的接1：2,提供了利用GPU进行高性能并行计算的方法。本文基于CUDA计算平台,对K近邻算法（KNN算法）的快速实现进行了研究,实验表明,利用NVIDIA GeForce 8800 GTX显示芯片实现的KNN搜索算法比在Penfium43．4GHz的CPU上的实现速度提高了120倍。相似文献

8.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

9.

基于CUDA的大规模稀疏矩阵的PCG算法优化

郑经纬安雪晖黄绵松《清华大学学报(自然科学版)》2014,(8):1006-1012

为了实现大规模稀疏矩阵的高效求解,该文利用GPU(graphics processing unit)高带宽、低成本及强大的并行处理能力等优势,基于CUDA(compute unified device architecture)技术对采用CSR(compress spare row)格式存储的大规模稀疏矩阵进行了预处理共轭梯度(PCG)算法的求解优化。采用了存储器优化和数据流优化这2大并行优化策略,对稀疏矩阵与向量乘积和向量间内积与归约的GPU优化步骤进行了详细介绍。通过对实际的水工隧洞模型里的稀疏矩阵求解,得到在GTX580显卡上的计算效率是Intel i7CPU的13倍。该文提出的基于CUDA的PCG算法具备快速、高效求解大规模稀疏矩阵的能力。相似文献

10.

基于GPU架构的SAR回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,14(13)

为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

11.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

12.

基于GPU并行算法的水动力数学模型建立及其效率分析 总被引：1，自引：0，他引：1

赵旭东梁书秀孙昭晨刘忠波韩松林任喜峰《大连理工大学学报》2014,54(2):204-209

应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460显卡和集群机的计算效率对比表明,在保持计算精度的前提下,速度提升了一个量级,且随着网格数的持续递增,可以保持较高的加速比增幅,比较适合应用于大范围海域的水动力模型的数值计算. 相似文献

13.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

14.

基于GPU交互式光线跟踪算法的设计与实现 总被引：1，自引：0，他引：1

陆建勇曹雪虹焦良葆《南京工程学院学报(自然科学版)》2009,7(3):61-67

由于GPU并行处理能力和可编程能力的提高,计算量巨大的光线跟踪算法在GPU上的实现成为研究热点．在CUDA平台上验证了Foley等人所采用的KD-tree加速算法,实现了交互式光线跟踪．在图像分辨率为512×512,跟踪深度为4时,针对复杂场薏的渲染速度达到15f／s,基本实现交互式光线跟踪．相似文献

15.

网格环境下期权定价BSDE模型的并行实现

刘辉彭滢龚斌代斌魏代政《华中科技大学学报(自然科学版)》2011,39(Z1):201-204

提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同编程在异构计算节点上的实现效率.通过监控计算节点上计算任务的负载状况,利用CNGrid所提供的计算服务,灵活地在异构计算节点上完成期权定价计算任务. 相似文献

16.

基于包围跳跃的CUDA光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,14(12)

针对传统光线投射算法绘制速度慢和GPU (Graphics Processing Unit,图形处理器)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的CUDA(Compute Unified Device Architecture,计算统一设备架构)光线投射算法,首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,本文的方法在保证图像质量的同时,在绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

17.

基于CUDA的高速并行高斯滤波算法 总被引：2，自引：1，他引：1

卢文龙王建军刘晓军《华中科技大学学报(自然科学版)》2011,(5):10-13

为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力. 相似文献

18.

基于GPU并行处理的地形三维重建技术研究

杨秀峰靳海亮臧文乾《江西科学》2014,(1):22-25

介绍了一种基于GPU(Graphic Processing Unit)并行处理的地形三维快速重建算法。该算法利用分而治之的思想,基于CUDA编程框架,首先计算每一点的邻域信息,并在其切平面上进行局部的三角剖分,然后合并形成最终的地形网格。实验结果表明,基于GPU并行化处理的三维重建算法高效、稳定,可以快速的实现结构复杂的大规模地形的三维重建。相似文献