期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

2.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

3.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

4.

基于多GPU的三维Kirchhoff积分法体偏移

刘伟峰赵改善孔祥宁蔡杰雄张兵《华中科技大学学报(自然科学版)》2011,39(Z1):110-114

提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差. 相似文献

5.

GPU加速的图像实时分形编码

孙冬高清维卢一相竺德《安徽大学学报(自然科学版)》2014,(3):50-55

图像分形编码压缩率大且质量较高,但实时性不好,因此难以推广应用.提出使用GPU对编码进行加速的方案.以图像FW算法为基础,在CUDA规范下,使用GPU并行地对图像中所有的待编码子树同时进行最优父树搜索.实验表明,该文编码方案在保持原有算法图像解码质量的情况下,可将编码时间缩短至毫秒级,满足了实时性的要求. 相似文献

6.

拟极小残差法在GPU上的优化研究

赵宁秦策徐玉聪《科学技术与工程》2014,14(7):225-228

随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。相似文献

7.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

8.

二维FFT在GPU上的并行实现

陈瑞童莹《南京工程学院学报(自然科学版)》2009,7(2):41-45

FFT算法是高度并行的分治算法,因此适合在GPU（Graphics Processing Unit,图形处理器）的CUDA（Compure Unified Device Architecture,计算统一设备体系结构）构架上实现．阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验．实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右．相似文献

9.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献

10.

基于GPU改进的并行人工蜂群算法

王智广王文亮张同举鲁强刘伟峰《中南民族学院学报(自然科学版)》2013,(4):86-90,114

相对于先前的并行人工蜂群算法进行了一些改进,主要采用OpenCL本地内存、并行规约等技术,提出了一种基于图形处理器（GPU）改进的并行人工蜂群算法．该算法将采蜜蜂映射为OpenCL一个工作项,跟随蜂采用右邻域优先的局部选择机制．实验结果表明：文中提出的改进并行人工蜂群算法提高了算法的执行效率,收敛速度得到提升．相似文献

11.

基于CUDA的数控仿真加工面显示算法的研究

黄明艳王子牛《贵州大学学报(自然科学版)》2013,30(4)

利用CUDA并行计算框架和GPU高效的并行性和灵活的可编程性等特点,本文提出了数控仿真加工面并行显示算法,算法主要包括:并行式区间树索引遍历体素,对活跃体素的角点和边信息标记提取;体素标记与MC分类之间的映射匹配;将匹配结果对应的MC模型直接显示绘制.该基于GUDA框架的GPU并行算法,从理论上分析提高显示速度,降低计算时间,增大仿真的实时性. 相似文献

12.

采用GPU并行计算与图像匹配的工件条码识别算法

董夙慧孙中廷徐永刚《华侨大学学报(自然科学版)》2017,(1):80-85

设计基于图形处理器(GPU)并行计算与图像匹配的条码识别算法.首先,设计基于归一化协方差的图像匹配算子,定位每个条码的位置.然后,根据条码面积、周长、形状因子,确定条码种类.最后,采用GPU并行计算方式完成条码解析.实验数据显示:与当前条码识别技术相比,所提算法能够同步识别多种条码,且在面对光照强度较暗或过高时,该算法具有更高的稳定性与抗干扰性,其仍具有更高的识别精度与效率. 相似文献

13.

改进的储层直接取样随机模拟方法及GPU实现

谢青彭威柳瑶阁黄涛卢德唐《中国科学技术大学学报》2013,43(8):626-630

讨论了储层随机模拟方法中的直接取样方法,并对其中地质模式分量的选取方式进行了改进,提出了结合空间相关关系模型结构化特性的方法.针对模式子空间中的求解问题,提出了基于统一计算设备构架(compute unified device architecture,CUDA)的并行策略.实验结果表明,模式分量选取方式的改进有效改善了两相河流沉积系统中河道的连续性,并且模式子空间中的求解的并行方法具有较小的时间复杂度.根据选取参数组的不同,并行方法的计算速度比串行方法最低提速10倍,最高提高了近100倍. 相似文献

14.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献

15.

基于消息传递接口的并行图像处理算法研究

熊杰刘彩云《成都大学学报(自然科学版)》2010,29(2):137-139

对于大数据量图像和复杂图像处理算法,并行处理是一种有效的解决方法.基于消息传递接口,设计了一种并行图像边缘检测算法,并在曙光4000L并行机上予以实现.数值实验结果表明,并行图像处理能显著减少计算时间,更多的计算节点能得到更大的加速比,该并行图像处理算法对于大数据量图像更加有效. 相似文献

16.

基于MFC的图像处理程序的设计研究

付同堂苏秀琴刘莹郝伟李哲《科学技术与工程》2007,7(15):3690-36933760

介绍了使用MFC进行图像处理程序设计的相关概念和方法,并通过分析图像处理程序的工作原理和系统结构,针对当前图像处理程序工作效率低、处理速度慢的问题,提出了一种基于多线程技术和MFC文档视图结构的图像处理程序的设计方法。该设计采用了线程同步的缓冲结构,具备了多线程并行处理能力,并充分利用了双核处理器的硬件优势。最终实验表明,采用该设计实现的图像处理程序响应迅速、处理效率很高,为MFC在图像处理领域的应用开发提供了一种良好的解决方案。相似文献

17.

CT图像重建的可扩展多DSP并行计算系统结构 总被引：4，自引：0，他引：4

陈雪松《清华大学学报(自然科学版)》2004,44(3):330-333

为提高大型工业CT的图像重建速度,通过分析卷积反投影算法的特点,提出了一种并行计算方案。设计了一种基于SPMD(单指令集,多数据流)并行处理结构的可扩展的多DSP(数字信号处理器)并行计算系统模型。通过仿真实验,确定了系统设计的重要参数——DSP的数量的选择依据。仿真结果表明,利用这种模型,可以将重建的时间从100 s量级降低到1 s量级。这样就大幅度地提高了CT图像重建的速度,扩大了大型工业CT的运用范围。相似文献

18.

基于图像处理的油圈分布特性研究

韩雪晨曾曙光邱晶《三峡大学学报(自然科学版)》2013,35(3):109-112

油圈在日常生活中经常可见．然而,油圈的分布特性迄今为止尚未得到深入研究．本文采用数字图像处理的方法来研究油圈的分布特性,具有直观、简便的优点．采用数码相机对油圈进行拍照,利用图像处理技术对图片进行图像相减、二值化、连通分量提取等处理,即可得到油圈的尺寸、数目等信息．采用直方图、高斯拟合等方法对上述信息进行一定的处理可得到油圈的分布特性．研究结果表明,经过搅拌处理后,直径大的油圈数目较少,直径小的油圈数目较多,且油圈数目与直径之间近似满足高斯分布规律．相似文献