期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

常高王华斌李国元刘金刚《科学技术与工程》2014,(12):246-250

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,提出了一种基于均匀驱动计算架构(compate unified device architecture,CUDA)平台的卫星影像快速匀光并行处理方法。根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

2.

基于CUDA的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,14(12)

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,本文提出了一种基于CUDA平台的卫星影像快速匀光并行处理方法,根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

3.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

4.

基于GPU和Python的粒子群优化算法研究

熊大卫胡建陈园《西南民族大学学报(自然科学版)》2023,(4):424-428

针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法：以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上. 相似文献

5.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

6.

基于GPU的多尺度Retinex图像增强算法实现

基于GPU的多尺度Retinex图像增强算法实现《山东科学》2017,30(3):103-109

为提高多尺度Retinex算法的实时性,本文提出了基于GPU的多尺度Retinex图像增强算法,通过对算法进行数据分析和并行性挖掘,将高斯滤波、卷积和对数差分等计算量非常耗时的模块放到GPU中,利用大规模并行线程处理来提高效率。在GeForce GTX 480和CUDA 5.5中进行实验,结果表明该算法能显著提高计算速度,且随着图像分辨率的增加,最大加速比达160倍。相似文献

7.

基于Matlab平台有限元方法的GPU加速

苏辉邱夏青马文鹏《信阳师范学院学报(自然科学版)》2018,(4)

基于Matlab平台,采用有限元方法实现了对二维拉普拉斯(Laplace)方程在GPU平台上的加速.通过对物理问题的分析与物理模型的构建,完成总体CSR格式存储的刚度矩阵的生成;使用Matlab和CUDA混合编程,在Matlab平台上实现该有限元问题的并行加速;并结合Cu Blas数值计算库采用PCG算法求解装配后的大型线性稀疏方程组,从而高效地迭代出各格点的速度势.该算法既充分发挥了Matlab在数值计算方面的高效性,又充分发挥了GPU在细粒度并行加速方面的优势. 相似文献

8.

使用GPU加速通用科学计算-CUDA技术解析

刘勇《科技信息》2008,(24)

GPU是图形加速卡的处理单元,具有大量的并行流水线,通常,其浮点运算能力是同代的CPU的10倍以上。本文介绍了一种尚在完善中的利用GPU强大的浮点运算能力来加速通用科学计算的编程模型CUDA。CUDA是用于GPU计算的开发环境,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。相似文献

9.

基于CUDA的高速并行高斯滤波算法 总被引：2，自引：1，他引：1

卢文龙王建军刘晓军《华中科技大学学报(自然科学版)》2011,(5):10-13

为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力. 相似文献

10.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

11.

Multi-GPU加速的二元合金定向凝固三维相场模型

《兰州理工大学学报》2018,(6)

基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CPU串行计算模型相比较,验证了Multi-GPU计算模型的计算效率和加速效果.实现了二元合金定向凝固的加速模拟计算,其加速比最大可达57.7. 相似文献

12.

基于Labview的相关分析的实现

张明《贵州工业大学学报(自然科学版)》2006,35(3):46-48

提出了基于美国NI公司Labview虚拟仪器软件开发工具,利用Labview中的AnalyzeSignal Processing Time Domain函数模板提供的计算互相关与自相关函数,并对labview的相关函数进行了修正,开发虚拟数字式相关测量仪,并通过典型的信号对该分析仪进行仿真试验。相似文献

13.

基于GPU 加速的边界面法正则积分的研究

张见明余列祥刘路平《湖南大学学报(自然科学版)》2013,40(3):41-45

基于GPU高性能并行计算,在CUDA编程环境中实现边界面法正则积分的并行加速.在NVIDIA GTX680GPU和英特尔(R)酷睿(TM)i7-3770KCPU的计算平台上与传统的正则单元积分对比.数值算例表明,在保证相同精度的前提下,加速比可达到8.3. 相似文献

14.

基于大地电磁二维反演的MPI和CUDA并行算法研究

汪茂《科学技术与工程》2017,17(10)

大地电磁测深法属于天然场源的电磁勘探方法,是以岩石的电性差异为基础和前提的勘探方法。所采用的大地电磁二维反演方法为共轭梯度法,该方法避免了求解雅可比矩阵,效率较高,但是在将模型剖分较细时,多频率进行计算时效率有待提高。基于大地电磁频率依次独立处理数据的特点,采用了MPI的并行算法来提高效率,为了使得计算效率更高,在MPI的基础上增加了CUDA并行运算方法,用多个进程同时来计算各频率数据,在求解方程的过程中采用CUDA进行加速,得到计算结果。通过对正演和反演图的比较,验证了程序的正确性。对并行算法的效率进行了统计,进程数为2~4时,加速比能达到2.15~3.09,比单一的MPI并行算法的加速比要高,验证了程序的有效性。相似文献

15.

N-Body问题在CUDA平台上并行实现研究

徐鹏魏紫《科技信息》2009,(27)

CUDA(Compute Unified Device Architecture,计算统一设备架构),是由NVIDIA开发的并行运算架构。对于软件开发人员,CUDA是一种通过行业标准语言,运行于图形处理单元上的计算方式。本文基于CUDA计算平台,对N-Body问题的并行实现算法进行了讨论,结果表明,合理的并行策略能有效地提高算法的运行效率。相似文献

16.

一种基于FPGA的互相关函数加速器设计

张浩鹏罗小华《江南学院学报》2014,(3):308-312

为了实现实时高性能目标识别,设计了一种基于FPGA的互相关函数加速器.通过合理的硬件设计与逻辑复用,使互相关函数计算速度得到提升.实验结果表明,加速器可以高速完成互相关函数计算,满足实时高分辨率图像目标识别系统的需求. 相似文献

17.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

18.

基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化

严立戴欣怡陈佳洛王平阳欧阳华《上海交通大学学报》2013,47(8):1198-1204

利用基于图形处理器（GPU）的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4～10倍的加速比,并且加速性能高低与计算规模大小成正比. 相似文献

19.

Lattice-Boltzmann方腔模型的CUDA加速实现

郑彦奎《科学技术与工程》2010,10(7)

对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存存储数据,将模型中9个分布函数存储为二维网格,每个网格分配一个线程,每个线程块包括256个线程,多条线程并行计算。在普通个人计算机上,采用NVIDIA GeForce 9600 GT显卡和CUDA,实现了LBM模拟方腔流动,将计算速度提高到CPU的50倍。相似文献

20.

首款离子平台迷你机

《科技潮》2009,(5):9-9

宏基目前在美国发布了新款廉价迷你台式机AspireRevo，成为全球第一款正式亮相的离子平台机型。宏基表示，借助离子平台的强劲图形性能，AspireRevo不仅可以播放蓝光1080p视频．还可以运行《孢子》、《使命召唤4》、《模拟城市5》这样的热门3D游戏，支持DirectX10和CUDA通用计算加速。相似文献