期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

2.

基于异构平台的图像中值滤波的OpenCL加速算法

肖诗洋王镭杜莹肖汉《河北大学学报(自然科学版)》2024,(1):92-103

图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 相似文献

3.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

4.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

5.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

6.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

7.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

8.

基于GPU的目标识别算法的并行化研究

《太原理工大学学报》2015,(6)

针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。相似文献

9.

基于OpenCL的隐马尔可夫模型的GPU并行实现

刘华泓姜克旺蔡向高《科技咨询导报》2013,(15):30-31

隐马尔可夫模型(HMM)是建立在马尔可夫链的基础上的统计模型.虽然隐马尔可夫模型是一种计算高效的机器学习模型,但是当处理的数据集规模过于庞大时,分析的时间太长.因此,我们有必要研究隐马尔可夫模型的并行化设计,以提高模型的运算速度.近年来,开放计算语言(OpenCL)的出现,使得设计通用的并行程序成为可能.该文,我们分析了隐马尔可夫模型三类算法的并行特性,并设计基于OpenCL的并行实现.实验结果表明,隐马尔可夫模型在GPU上的并行化实现最高获得了640倍的加速比. 相似文献

10.

基于OpenCL改进四邻域算法速度的研究

何刚尹光福邹远文《实验科学与技术》2012,10(2):53-54,173

介绍OpenCL基本原理及其特点,分析其在生物医学图像处理中的应用,并以图像清晰度计算算法四邻域法为例进行算法并行化。计算结果表明,在PC平台进行图像清晰度计算时,基于GPU计算的OpenCL技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的生物医学图像处理及可视化应用。相似文献

11.

基于CPU_MIC_GPU异构架构的Roberts算法优化探究

洪向共陈威熊镝周辉林《科学技术与工程》2016,16(36)

在高分辨率图像日益普及的情况下,Roberts边缘检测的处理速度急需进一步提高。在CPU表现不尽如人意的情况下,基于CPU/GPU和CPU/MIC的高度并行运算的研究愈加深入。在分析Roberts算法特点的基础上,将能并行的部分移植到GPU和MIC上进行。完成基于CPU/GPU和CPU/MIC的异构架构上的Roberts算法实现,并针对CPU/MIC上将程序进行向量化优化。实验结果表明,在相同单精度浮点运算能力下,GPU处理低分辨率图像的速度更快、加速比更高,但处理高分辨率图像时MIC的加速比最高为23.52,高于GPU的21.43。相似文献

12.

网格环境下期权定价BSDE模型的并行实现

刘辉彭滢龚斌代斌魏代政《华中科技大学学报(自然科学版)》2011,39(Z1):201-204

提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同编程在异构计算节点上的实现效率.通过监控计算节点上计算任务的负载状况,利用CNGrid所提供的计算服务,灵活地在异构计算节点上完成期权定价计算任务. 相似文献

13.

地震波能量补偿的并行反Q滤波方法研究

张全王一品张伟彭博胥林《西南石油大学学报(自然科学版)》2023,45(1):24-32

在石油勘探地震资料处理中,反Q滤波方法能有效地对地震波进行振幅补偿和相位校正,为地震反演和储层预测提供更准确的信息。对于大规模的地震道集数据处理,反Q滤波方法在CPU计算平台上执行时间较长,影响了地震解释的效率。分析发现,反Q滤波方法大量时间消耗在振幅相位补偿与短时傅里叶变换。在GPU平台上,首先,对振幅相位补偿部分进行并行化;其次,对批量短时傅里叶变换用CUFFT库进行加速;最后,对批量短时傅里叶变换进一步优化并将其应用于反Q滤波方法。实验结果表明,相比CPU计算环境,基于CUFFT库的反Q滤波并行算法效率提升了3.9倍,优化后的批量短时傅里叶变换进一步将效率提升了12%。相似文献

14.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

15.

基于CUDA的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,14(12)

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,本文提出了一种基于CUDA平台的卫星影像快速匀光并行处理方法,根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

16.

面向图形处理器重叠通信与计算的数据划分方法

张保曹海军董小社李丹胡雷钧《西安交通大学学报》2011,45(4):1-5,11

针对"主核心+协处理器"式异构并行系统采用数据平均划分再分批执行的方法来解决主协式处理架构的额外通信开销时未能充分利用系统资源的问题,提出了一种新的数据比例划分方法.结合系统通信带宽和图形处理器(GPU)的计算能力,将应用数据按比例划分为大小不同的数据块后分批提交给GPU处理,使系统的传输资源PCI-E总线和计算资源GPU在一段时间内并行工作,从而实现了应用通信与计算的重叠.在处理按照比例划分的数据块过程中,尽可能充分利用系统的传输资源和计算资源,以减少数据传输和计算的相互等待时间.实验结果表明,采用数据比例划分方法后的应用性能明显提高,可以有效地重叠通信与计算时间,矩阵相乘和快速傅里叶变换总执行时间比未划分时分别减少了5%和30%左右,比平均划分时分别减少了3%和6%左右. 相似文献

17.

Parallelization and Performance Optimization on Face Detection Algorithm with OpenCL: A Case Study

Weiyan Wang Yunquan Zhang Shengen Yan Ying Zhang Haipeng Jia . Laboratory of Parallel Software Computational Science 《清华大学学报》2012,(3):287-295

Face detect application has a real time need in nature. Although Viola-Jones algorithm can handle it elegantly, today’s bigger and bigger high quality images and videos still bring in the new challenge of real time needs. It is a good idea to parallel the Viola-Jones algorithm with OpenCL to achieve high performance across both AMD and NVidia GPU platforms without bringing up new algorithms. This paper presents the bottleneck of this application and discusses how to optimize the face detection step by step from a very nave implementation. Some brilliant tricks and methods like CPU execution time hidden, stubbles usage of local memory as high speed scratchpad and manual cache, and variable granularity were used to improve the performance. Those technologies result in 4-13 times speedup varying with the image size. Furthermore, those ideas may throw on some light on the way to parallel applications efficiently with OpenCL. Taking face detection as an example, this paper also summarizes some universal advice on how to optimize OpenCL program, trying to help other applications do better on GPU. 相似文献

18.

基于移动平台的异构并行字符串匹配算法

刘磊李广力徐玥张桐搏吕帅《吉林大学学报(理学版)》2017,55(1):82-88

针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率. 相似文献

19.

基于GPU的多尺度Retinex图像增强算法实现

基于GPU的多尺度Retinex图像增强算法实现《山东科学》2017,30(3):103-109

为提高多尺度Retinex算法的实时性,本文提出了基于GPU的多尺度Retinex图像增强算法,通过对算法进行数据分析和并行性挖掘,将高斯滤波、卷积和对数差分等计算量非常耗时的模块放到GPU中,利用大规模并行线程处理来提高效率。在GeForce GTX 480和CUDA 5.5中进行实验,结果表明该算法能显著提高计算速度,且随着图像分辨率的增加,最大加速比达160倍。相似文献