期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宋明聪《科学技术与工程》2013,13(16)

对于大规模SAR回波数据,单纯依靠CPU实现实时成像处理存在较大挑战。近年来出现的GPU图像处理单元为SAR成像处理提供了一个理想的处理平台。本文结合GPU和CPU的特点,利用基于CPU-GPU的异构协同处理平台来加速SAR成像算法。同时,为了充分发挥该异质架构的性能,文中提出了一种改进的基于子孔径架构的成像算法,并在此架构上对超大规模SAR回波数据进行了成像处理,取得良好的成像效果和加速比。相似文献

2.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞
 《重庆师范大学学报(自然科学版)》2013,(3):94-98

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤。由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节。该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度。数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果。对于3 121×936的图像数据能够达到1 558fps的帧率,速度提高了大约664倍。相似文献

3.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞《重庆师范大学学报(自然科学版)》2013,30(3)

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤.由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节.该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度.数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果.对于3 121×936的图像数据能够达到1 558 fps的帧率,速度提高了大约664倍. 相似文献

4.

基于CPU_MIC_GPU异构架构的Roberts算法优化探究

洪向共陈威熊镝周辉林《科学技术与工程》2016,16(36)

在高分辨率图像日益普及的情况下,Roberts边缘检测的处理速度急需进一步提高。在CPU表现不尽如人意的情况下,基于CPU/GPU和CPU/MIC的高度并行运算的研究愈加深入。在分析Roberts算法特点的基础上,将能并行的部分移植到GPU和MIC上进行。完成基于CPU/GPU和CPU/MIC的异构架构上的Roberts算法实现,并针对CPU/MIC上将程序进行向量化优化。实验结果表明,在相同单精度浮点运算能力下,GPU处理低分辨率图像的速度更快、加速比更高,但处理高分辨率图像时MIC的加速比最高为23.52,高于GPU的21.43。相似文献

5.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

6.

基于Fermi架构的超声图像自动增益补偿并行算法

何兴无张霞《科技导报(北京)》2012,30(31):61-65

在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。相似文献

7.

基于均匀驱动计算架构的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,(12):246-250

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,提出了一种基于均匀驱动计算架构(compate unified device architecture,CUDA)平台的卫星影像快速匀光并行处理方法。根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

8.

并行图像配准算法在幸运成像中的应用

《山东科技大学学报(自然科学版)》2015,(4)

借助图形处理器(GPU)在通用计算领域的优势,解决图像配准面临的处理速度问题。研究了基于GPU加速处理图像配准的算法;根据Fourier-Mellin变换的图像配准算法原理,提出相应的GPU并行设计模型;利用计算统一设备架构的软硬件体系架构,实现Fourier-Mellin变换算法向GPU的移植。实验表明,运用所提出的并行方案完成分辨率1 024×1 024像素的图像配准耗时22ms,有效提升了图像配准效率,增强了幸运成像技术工程应用的可能性。相似文献

9.

基于CUDA的最大互相关算法加速处理研究

《甘肃科技》2019,(22)

提出了一种基于CUDA平台的最大互相关算法加速处理的方法,利用CUDA强大的并行处理能力提高图像匹配过程中实时性。对最大互相关函数做了分解和计算,并对函数在CUDA中的实现做了分析和设计,最后通过比对相同图像在CPU和GPU中的计算时间验证CUDA平台处理最大互相关函数的加速处理研究效果。相似文献

10.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

11.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

12.

基于异构平台的图像中值滤波的OpenCL加速算法

肖诗洋王镭杜莹肖汉《河北大学学报(自然科学版)》2024,(1):92-103

图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 相似文献

13.

星载SAR图像几何校正并行算法研究

范明虎田军锋赵建辉左宪禹葛强《河南大学学报(自然科学版)》2019,49(5):553-558

并行计算是遥感图像快速处理的基本方法,而并行算法则是实现这种方法的关键之一.针对星载SAR图像几何校正中单幅图像的快速处理问题,首先分析了一种串行校正算法的可并行特征,随后分别设计了一种面向多CPU/核和一种面向GPU的全局并行校正算法,并利用2幅星载SAR图像测试了多种数据粒度下这2种算法的加速效能.实验结果表明,这2种并行算法可以大幅提高星载SAR图像的几何校正速度;CPU并行算法的性能主要与CPU/核心数目有关,而GPU并行算法则主要与数据粒度有关;后者具有很高的加速比,是几何校正的高效方法. 相似文献

14.

基于CUDA的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,14(12)

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,本文提出了一种基于CUDA平台的卫星影像快速匀光并行处理方法,根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

15.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

16.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

17.

基于CPU/GPU协同加速叠前逆时偏移方法研究

《陕西理工学院学报(自然科学版)》2016,(1):44-49

为了提高地震资料数据处理的计算效率与成像精度,对于逆时偏移算法,采用一阶速度-应力波动方程,使用交错网络高阶有限差分算法进行求解。利用随机边界条件和PML边界条件进行地震波场正向延拓,既减少波场存储量,又能保证波场数据准确性,同时,使用CPU/GPU协同并行计算技术来提高运算效率。实验结果表明,CPU/GPU协同并行加速计算效果明显,叠前逆时偏移算法可对大地层倾角和偏移孔径清晰成像,能够对复杂构造地质体精确成像。相似文献

18.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

19.

地震波能量补偿的并行反Q滤波方法研究

张全王一品张伟彭博胥林《西南石油大学学报(自然科学版)》2023,45(1):24-32

在石油勘探地震资料处理中,反Q滤波方法能有效地对地震波进行振幅补偿和相位校正,为地震反演和储层预测提供更准确的信息。对于大规模的地震道集数据处理,反Q滤波方法在CPU计算平台上执行时间较长,影响了地震解释的效率。分析发现,反Q滤波方法大量时间消耗在振幅相位补偿与短时傅里叶变换。在GPU平台上,首先,对振幅相位补偿部分进行并行化;其次,对批量短时傅里叶变换用CUFFT库进行加速;最后,对批量短时傅里叶变换进一步优化并将其应用于反Q滤波方法。实验结果表明,相比CPU计算环境,基于CUFFT库的反Q滤波并行算法效率提升了3.9倍,优化后的批量短时傅里叶变换进一步将效率提升了12%。相似文献

20.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献