期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

2.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

3.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

4.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

5.

GPU加速的图像实时分形编码

孙冬高清维卢一相竺德《安徽大学学报(自然科学版)》2014,(3):50-55

图像分形编码压缩率大且质量较高,但实时性不好,因此难以推广应用.提出使用GPU对编码进行加速的方案.以图像FW算法为基础,在CUDA规范下,使用GPU并行地对图像中所有的待编码子树同时进行最优父树搜索.实验表明,该文编码方案在保持原有算法图像解码质量的情况下,可将编码时间缩短至毫秒级,满足了实时性的要求. 相似文献

6.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

7.

拟极小残差法在GPU上的优化研究

赵宁秦策徐玉聪《科学技术与工程》2014,14(7):225-228

随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。相似文献

8.

Kirchhoff积分法与快速步进算法（FMM）叠前深度偏移成像方法研究 总被引：1，自引：0，他引：1

张晓丹张志禹《西安理工大学学报》2008,24(2)

Kirchhoff积分法速度快、适应性好,是目前石油勘探界使用最为普遍的叠前深度偏移技术,该算法需要快速稳定的旅行时求取方法.快速步进算法(Fast Matching Method)是建立在程函方程基础上的旅行时计算方法,它具有速度快、无条件稳定、可以适应复杂地质模型的特点.将快速步进算法(FMM)进行射线追踪所得到的旅行时,运用于对地震数据进行的Kirchhoff叠前深度偏移中.实验结果表明,Kirchhoff积分法与快速步进算法的结合是成功的,提高了偏移的速度,偏移结果良好. 相似文献

9.

二维FFT在GPU上的并行实现

陈瑞童莹《南京工程学院学报(自然科学版)》2009,7(2):41-45

FFT算法是高度并行的分治算法,因此适合在GPU（Graphics Processing Unit,图形处理器）的CUDA（Compure Unified Device Architecture,计算统一设备体系结构）构架上实现．阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验．实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右．相似文献

10.

基于GPU的Hough变换多圆加速检测实现

吕俊瑞罗学刚《攀枝花学院学报》2012,29(4):94-97

针对多圆检测问题,本文提出一种边缘点连续性特征按曲线段进行归类,同时丢弃非圆特征点,利用图形处理器(GPU)的高度优化的并行计算能力在每个曲线段点集中按照一定的取点规则取3点并行计算圆参数的改进Hough变换算法。该实现有效地降低Hough变换的无效累积,同时保留了传统Hough变换抗噪性强、对不完整边缘具有鲁棒性等优点。经测试,该改进算法在GPU的检测的速度优于CPU三十多倍,性能具有明显优势。相似文献

11.

基于CUDA技术城市小区电波传播并行计算的研究

陈辉张龙才《重庆邮电大学学报(自然科学版)》2013,25(3):347-352

无线电射线跟踪效率一直是电波传播场强模拟预测的核心问题之一。随着计算统一设备架构(compute u-nified device architecture,CUDA)技术的提出彻底改变传统的x86硬件架构体系,从硬件底层上为并行计算提供了可能。在CUDA被提出用于通用计算的前提下,提出了CUDA技术与射线跟踪相结合,介绍了CUDA如何实现异构体计算,如何在CUDA硬件平台上实现并行化编程,然后通过一个简单的三维地理数据模型实现了无线电波射线跟踪的并行化计算。最后对实验结果进行了分析与总结,证明CUDA技术能很好地提高运算效率。相似文献

12.

多GPU节点下的NAMD测试与分析

桂叶晨刘涛彭蓉文高进《华中科技大学学报(自然科学版)》2011,39(Z1):106-109

运用大规模分子动力学并行开源代码NAMD测试了深腾7000GGPU集群的性能.在配备有Teslac1060与双路4核CPU的节点上,分别对烟草花病毒(STMV),血脂蛋白(ApoA1)与Tiny这3类分子进行了单节点与多节点的测试.测试结果表明:GPU相较于CPU能获得平均2至8倍性能提升,可为大规模分子的模拟提供高性价比的解决方案.然而,多节点下GPU的利用率却有所降低,其并行扩展性能也受到一定限制.另外,一些重要的分子结构构建的指标,如范德华力静止点的值也在一定程度上影响着模拟性能. 相似文献

13.

引导滤波算法的CUDA加速实现

王新磊何凯王晓文《吉林大学学报(信息科学版)》2016,34(1):104-110

针对引导滤波算法运算速度慢、无法实时处理的问题, 提出基于统一计算设备架构(CUDA: Compute Unified Device Architecture)实现引导滤波算法的加速。利用CUDA 并行编程实现图像邻域窗口像素值求和,进而获得图像邻域均值; 通过利用寄存器和纹理存储器, 同时优化算法步骤, 获得引导滤波关键参数, 进而实现对算法的整体优化。实验结果表明, 与基于CPU 实现引导滤波算法相比, 基于CUDA 并行处理可在很大程度上提高运算速度, 基本达到了实时处理的要求。相似文献

14.

冷冻电镜三维重构在CPU-GPU系统中的并行性

李兴建李临川谭光明张佩珩《华中科技大学学报(自然科学版)》2011,39(Z1):115-119

为了有效地发掘和利用异构系统在应用和体系结构上的并行性,以冷冻电镜三维重构为例展示如何利用应用程序潜在的并行性.通过分析重构计算所有的并行性,实现了将动态自适应的划分算法用于任务在异构系统上高效的分发.在曙光星云系统的部分节点系统(32节点)上评估并行化的程序性能.实验证明:多层次的并行化是CPU与GPU异构系统上开发并行性的有效模式;CPU-GPU混合程序在给定问题规模上相对单纯CPU程序获得2.4倍加速比. 相似文献

15.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献

16.

改进的储层直接取样随机模拟方法及GPU实现

谢青彭威柳瑶阁黄涛卢德唐《中国科学技术大学学报》2013,43(8):626-630

讨论了储层随机模拟方法中的直接取样方法,并对其中地质模式分量的选取方式进行了改进,提出了结合空间相关关系模型结构化特性的方法.针对模式子空间中的求解问题,提出了基于统一计算设备构架(compute unified device architecture,CUDA)的并行策略.实验结果表明,模式分量选取方式的改进有效改善了两相河流沉积系统中河道的连续性,并且模式子空间中的求解的并行方法具有较小的时间复杂度.根据选取参数组的不同,并行方法的计算速度比串行方法最低提速10倍,最高提高了近100倍. 相似文献

17.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献

18.

基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化

严立戴欣怡陈佳洛王平阳欧阳华《上海交通大学学报》2013,47(8):1198-1204

利用基于图形处理器（GPU）的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4～10倍的加速比,并且加速性能高低与计算规模大小成正比. 相似文献