首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

2.
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证.  相似文献   

3.
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性.  相似文献   

4.
针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(Open Computing Language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元(Compute Unit,CU)的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP(Open Multi-Processing)并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。  相似文献   

5.
基于GPU的粒子滤波并行算法   总被引:1,自引:1,他引:0  
针对粒子滤波跟踪算法计算量较大,需要在跟踪准确性与计算效率之间做出妥协的问题,分析了粒子滤波算法的并行性,提出了基于图像处理单元(GPU)平台的粒子滤波并行算法.将传统粒子滤波算法与GPU有效结合起来,充分利用GPU并行运算的性能,加快粒子滤波算法的计算速度.对所提出算法的计算性能与普通串行算法进行了对比,实验结果表明该算法在不降低跟踪准确性的同时,平均每帧处理时间显著减少.  相似文献   

6.
针对嵌入式GPU通用计算的仿真器构建需求,通过对通用图形处理单元仿真器(general purpose graphics processing unit-simulator,GPGPU-sim)的计算核心、存储结构与Mali GPU的异同进行比较分析,首先建立面向OpenCL的Mali GPU仿真器的流程与结构,并设计计算单元数、寄存器数、最小并行粒度等GPU微体系结构参数的获取方法,在对GPGPU-sim进行修改和配置后,实现了对特定GPU架构的仿真器构建。使用矩阵相乘、图像处理等OpenCL程序对仿真器的准确性进行测试,以程序在仿真器和硬件平台上的执行周期数差距作为评估依据。实验结果表明:对于测试程序集中优化前的OpenCL程序,其中70%的程序在两个平台上的运行周期数差距不超过30%;对于优化后的OpenCL程序,其中90%的程序的运行周期数差距不超过30%。由此证明,构建的GPU仿真器能够满足OpenCL程序的仿真与性能评估。  相似文献   

7.
多种中值滤波算法在可重构架构上的映射实现   总被引:2,自引:0,他引:2  
为了满足图像应用对椒盐噪声高性能实时处理的需求,解决传统设计方法仅能针对特定滤波算法实现固定参数的限制,在粗颗粒度可重构架构上映射实现了多种中值滤波算法.通过分析中值滤波算法的计算数据特点,探索出滤波算法在重构架构的数据并行和重用方法.同时,通过优化可重构计算单元的微结构设计来适应中值滤波算法的映射,扩展重构计算单元的输出端口设计,引入分布式跨域寄存器.实验结果表明,采用SMIC 130 nm CMOS工艺实现100 MHz系统主频,可以获得最高75.21×106像素/s的像素处理速率.可重构方法可以灵活实现多种中值滤波算法,满足不同复杂度和分辨率下图像的实时处理需求.  相似文献   

8.
针对粒子滤波算法在重采样环节因粒子交互而不能充分并行处理的问题,提出了基于图形处理器(GPU)的并行骨干粒子群优化粒子滤波算法(BBPSO-PF).首先利用骨干粒子群算法具有易并行的特点优化粒子滤波算法重采样环节,从算法结构上提高粒子滤波算法的并行度.然后利用GPU的多线程架构并行处理每个粒子群的数据,每个线程负责一个粒子群,使粒子群之间得到并行化处理,解决粒子滤波重采样因粒子交互而不能充分并行的缺点.最后利用GPU中对齐与合并的内存访问原则,给粒子群设计高效的数据存储结构,降低内存访问事务,提高粒子群的数据存取速度,进一步提高算法实时性.该方法在保证算法精度前提下明显提高了算法的实时性.  相似文献   

9.
 在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。  相似文献   

10.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

11.
介绍OpenCL基本原理及其特点,分析其在生物医学图像处理中的应用,并以图像清晰度计算算法四邻域法为例进行算法并行化。计算结果表明,在PC平台进行图像清晰度计算时,基于GPU计算的OpenCL技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的生物医学图像处理及可视化应用。  相似文献   

12.
对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高.  相似文献   

13.
一种改进的图像中值滤波算法   总被引:11,自引:0,他引:11  
为了满足图像预处理的实时性要求,提出一种基于前一帧图像的改进的中值滤波算法.充分利用相邻窗口间的相关信息,通过移出一列(或一行)像素并移入另一列(或一行)像素,而其余已排序像素保持不变,仅对新移入的像素进行排序的方法,完成中值滤波处理,达到滤波要求.实验证明该算法可以有效地降低图像预处理的复杂度,使传统中值滤波算法的复杂度由原来的O(D2)降到了O(D),应用效果良好.  相似文献   

14.
针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高.  相似文献   

15.
在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤.由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节.该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度.数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果.对于3 121×936的图像数据能够达到1 558 fps的帧率,速度提高了大约664倍.  相似文献   

16.
随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。  相似文献   

17.
均值加速的快速中值滤波算法   总被引:20,自引:0,他引:20  
中值滤波是图像处理中常用的滤波方法 ,该方法能够在有效地去除噪声的同时保持图像的边缘细节。但由于其运算的时间复杂度高 ,在滤波子窗尺度较大时 ,不能满足大型图像实时处理的需要。提出了一种利用均值加速的快速中值滤波算法 ,它能有效地降低中值滤波算法的时间复杂度 ,将计算效率和运算速度提高到传统快速滤波算法的两倍以上。该算法应用于大型辐射图像的滤波处理中 ,取得了良好的效果 ,提高了图像滤波的速度 ,增强了图像处理的实时性  相似文献   

18.
随着计算机技术的更新发展,人们需要处理各式各样复杂的图像,而图像处理的方式方法也表现出多元化特性,对此,该文基于GPU并行处理能力,提出了一种更加高效、快捷的图像处理方法,通过C++语言进行图像计算,主要从高斯模糊算法并行化、彩色负片处理算法并行化、透明合并处理算法并行化3个方面做了全面分析,从而证明GPU视角下的图像处理并行算法更具优势,值得大力推广与应用。  相似文献   

19.
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题.  相似文献   

20.
借助图形处理器(GPU)在通用计算领域的优势,解决图像配准面临的处理速度问题。研究了基于GPU加速处理图像配准的算法;根据Fourier-Mellin变换的图像配准算法原理,提出相应的GPU并行设计模型;利用计算统一设备架构的软硬件体系架构,实现Fourier-Mellin变换算法向GPU的移植。实验表明,运用所提出的并行方案完成分辨率1 024×1 024像素的图像配准耗时22ms,有效提升了图像配准效率,增强了幸运成像技术工程应用的可能性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号