期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李斌毛鹏飞《湖南大学学报(自然科学版)》2017,44(4):126-132

为实现高光谱影像数据快速降维,基于nVidia 的图像处理单元(graphic processing unit, GPU)研究最大噪声分数变换（Maximum Noise Fraction Rotation,MNF Rotation）降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L（MNF-on-Library）算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势. 相似文献

2.

基于GPU的高光谱遥感岩矿信息快速提取方法 总被引：2，自引：0，他引：2

柳家福吴泽彬刘天石韦志辉王启聪《中国科技论文在线》2014,(10):1137-1143

提出了基于图形处理单元（graphics processing unit,GPU）的高光谱岩矿信息快速提取方法,利用GPU的并行计算优势对高光谱岩矿信息提取的核心步骤进行了并行优化设计。针对高光谱岩矿信息提取的算法特点,提出了相应的性能优化策略,包括优化算法流程、提高访存效率和减少数据访问冲突。实验结果表明,并行设计模型与优化方法能够快速有效地进行岩矿信息提取,并且最大加速比达到了81倍。相似文献

3.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

4.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

5.

基于GPU和Python的粒子群优化算法研究

熊大卫胡建陈园《西南民族大学学报(自然科学版)》2023,(4):424-428

针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法：以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上. 相似文献

6.

基于GPU的SVM参数优化并行算法 总被引：1，自引：0，他引：1

《江苏大学学报(自然科学版)》2017,(5)

为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优化算法的并行化方案,并在单GeForce GT 650M GPU卡上进行了试验验证.结果表明,并行化网格搜索和并行化粒子群参数优化算法不仅可以取得与非并行化参数优化算法相同的优化效果,而且执行时间大大减小,其中并行粒子群参数优化算法的加速比可高达26.85,大幅提升了SVM的参数优化效率. 相似文献

7.

基于图形处理单元架构的合成孔径雷达回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,(13):85-89

为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

8.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

9.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

10.

基于Atrous-HIS变换的多光谱遥感影像多核并行融合方法

范明虎薛昊润臧文乾张旭升谢毅《河南师范大学学报(自然科学版)》2022,(4):76-81

为适应遥感影像高效融合的应用需求，提出了一种基于Atrous-HIS变换的多光谱与全色影像并行融合方法.首先设计了一种结合了Atrous和HIS变换的遥感影像串行融合算法，分析了它的详细处理步骤.随后在该算法中引入OpenMP并行技术，并且制定了并行策略，优化了处理流程，最终实现了一种高效的并行影像融合算法.实验结果表明，该方法可以实现多光谱与全色影像的快速融合，具有良好的加速比，可扩展性好，并行效率高. 相似文献

11.

基于GPU的高光谱遥感MNF并行方法研究

罗耀华郭科赵仕波《四川师范大学学报(自然科学版)》2013,(3):476-479

最小噪声分离变换(MNF)是高光谱遥感影像分类中特征提取和去除噪声的有效方法.MNF算法涉及大量的矩阵运算,在实际工程的海量数据处理中存在计算时间长的问题.在分析MNF算法原理的基础上,运用图形处理单元(GPU)并行框架对该算法进行优化,并通过不同大小的高光谱遥感数据进行计算和分析.结果表明,随着影像数据量的递增,采用并行计算方式的提速比呈明显上升趋势,说明GPU并行方式对于计算密集型的大数据量处理具有良好的提速效果,为解决海量高光谱遥感数据处理速度慢的问题提供了思路. 相似文献

12.

基于Spark的ISOMAP算法并行化

《中国科学技术大学学报》2016,(9)

为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理. 相似文献

13.

地下多相流动数值模拟的GPU并行优化

魏晓辉朱彤李洪亮李维山许天福《吉林大学学报(理学版)》2013,51(2):250-256

针对减少模拟计算时间及提高问题求解规模问题, 基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现, 并将其整合到TOUGHREACT软件中, 在GPU平台实现了对地下多相流动数值模拟问题的并行求解, 并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法. 实验结果表明, GPU的使用对求解过程有良好的加速效果, 针对不同的网格规模进行多相流模拟实验, 达到了1.7~3.4倍的加速比. 相似文献

14.

基于GPU架构的SAR回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,14(13)

为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

15.

一种利用Spark-GPU加速 CT图像重建的设计

熊威曾有灵李喆《暨南大学学报(自然科学与医学版)》2019,40(6)

目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速度有近10倍的提升.结论:Spark和GPU结合能够扩展Spark的性能,突破单机加速瓶颈,大幅提升计算速度,对于不同的图像重建算法均有良好的加速效果,表明Spark-GPU在图像重建方向有良好的应用前景. 相似文献

16.

一种基于GPU的二维离散多分辨率小波变换加速方法

刘磊张子佳刘雷张睿《吉林大学学报(理学版)》2015,53(2):267-272

针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求, 提出一种基于GPU的并行小波变换算法, 并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术, 利用多Kernel并行提高多种分辨率下小波变换的性能. 实验结果表明, 与CPU串并行版本相比, GPU并行优化算
法在高分辨率变换情况下, 加速比最高可达30~60倍, 可满足对变换实时性的要求. 相似文献

17.

基于GPU的并行拟牛顿神经网络训练算法设计

刘强李佳峻《河海大学学报(自然科学版)》2018,46(5):458-463

针对人工神经网络训练需要极强的计算能力和高效的最优解搜寻方法的问题,提出基于GPU的BFGS拟牛顿神经网络训练算法的并行实现。该并行实现将BFGS算法划分为不同的功能模块,针对不同模块特点采用混合的数据并行模式,充分利用GPU的处理和存储资源,取得较好的加速效果。试验结果显示:在复杂的神经网络结构下,基于GPU的并行神经网络的训练速度相比于基于CPU的实现方法最高提升了80倍;在微波器件的建模测试中,基于GPU的并行神经网络的速度相比于Neuro Modeler软件提升了430倍,训练误差在1%左右。相似文献

18.

基于Matlab平台有限元方法的GPU加速

苏辉邱夏青马文鹏《信阳师范学院学报(自然科学版)》2018,(4)

基于Matlab平台,采用有限元方法实现了对二维拉普拉斯(Laplace)方程在GPU平台上的加速.通过对物理问题的分析与物理模型的构建,完成总体CSR格式存储的刚度矩阵的生成;使用Matlab和CUDA混合编程,在Matlab平台上实现该有限元问题的并行加速;并结合Cu Blas数值计算库采用PCG算法求解装配后的大型线性稀疏方程组,从而高效地迭代出各格点的速度势.该算法既充分发挥了Matlab在数值计算方面的高效性,又充分发挥了GPU在细粒度并行加速方面的优势. 相似文献

19.

高光谱遥感影像分类算法并行处理设计与实现

秦飞龙郭科柳炳利周仲礼程宾洋武进《成都理工大学学报(自然科学版)》2016,(1):119-123

探讨高光谱遥感影像分类算法处理遥感影像速度。通过光谱角度匹配（SAM）、光谱相关系数匹配（SCM）、信息散度匹配（SIDM）、光谱波形匹配（SWM）进行并行化改造设计,将改造的并行化算法应用到湖北大冶遥感影像数据分类处理中,结果表明并行化算法能够有效完成高光谱遥感影像分类,数据量增大,并行化处理速度加快,数据量为158×382×1092时, SAM 并行处理速度是串行处理速度的25．68倍、SCM 为25．41倍、SIDM 为17．55倍、SWM为23．68倍。并行分类算法处理遥感影像分类速度较串行分类算法处理快。相似文献

20.

基于GPU的隐式不可压缩SPH流体模拟

《河南师范大学学报(自然科学版)》2015,(5):159-164

提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比. 相似文献