共查询到20条相似文献,搜索用时 687 毫秒
1.
《中南民族大学学报(自然科学版)》2016,(2):79-84
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献
2.
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。 相似文献
3.
《河南师范大学学报(自然科学版)》2015,(5):159-164
提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比. 相似文献
4.
随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。 相似文献
5.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献
6.
针对卷积神经网络在自然图像识别上的局限性,提出一种适用于自然图像识别的卷积神经网络算法,使其在自然图像识别的准确率和速度上取得更好的效果.首先利用MAPREDUCE实现算法的并行化,并利用GPU技术对该算法进行加速;再次利用多区域的逻辑回归计算方法提高图像识别的准确率.在实验环境下验证了改进算法的正确性和有效性. 相似文献
7.
为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。 相似文献
8.
在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。 相似文献
9.
目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速度有近10倍的提升.结论:Spark和GPU结合能够扩展Spark的性能,突破单机加速瓶颈,大幅提升计算速度,对于不同的图像重建算法均有良好的加速效果,表明Spark-GPU在图像重建方向有良好的应用前景. 相似文献
10.
为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。 相似文献
11.
王海滨 《兰州理工大学学报》2007,33(4):150-152
针对无约束最优化问题,在已建立的一类新拟牛顿方程的基础上,把满足于传统拟牛顿方程的一类改进BFGS算法推广到新拟牛顿方程,从而得到一类基于新拟牛顿方程的改进BFGS算法.证明该算法在目标函数为一致凸时具有局部超线性收敛性. 相似文献
12.
为提高一维信号去除噪声的稀疏分解基追踪算法的效率,提出了采用修正的拟牛顿法来解决基追踪去噪过程中的无约束优化问题。该算法在传统拟牛顿法的基础上,对BFGS(Broyden-Fletcher-Goldfarb-Shanno)公式进行修正,有效地减少了最优化过程中所需的迭代次数。实验结果表明,修正的拟牛顿法与传统算法相比,能够明显提高目标函数的收敛速率。 相似文献
13.
前馈神经网络是神经网络中应用最广的一种。但由于神经网络采用B-P算法,收敛速度慢。在分析了神经网络算法原理的基础上,提出了一种基于变质量法的优化训练算法。仿真证明,这种算法能够大大提高神经网络的收敛速度。 相似文献
14.
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。 相似文献
15.
为提高一维信号去除噪声的稀疏分解基追踪算法的效率,提出了采用修正的拟牛顿法来解决基追踪去噪过程中的无约束优化问题。该算法在传统拟牛顿法的基础上,对BFGS(Broyden-Fletcher-Goldfarb-Shanno)公式进行修正,有效地减少了最优化过程中所需的迭代次数。实验结果表明,修正的拟牛顿法与传统算法相比,能够明显提高目标函数的收敛速率。 相似文献
16.
针对无约束最优化问题,提出了一个基于新拟牛顿方程Bk+1Sk=yk^*的新改进BFGS算法,并在目标函数一致凸的假设条件下证明了该算法的全局收敛性。 相似文献
17.
神经网络训练过程中的高昂计算代价是有待克服的一个主要困难。作者把前馈多层神经网络的相继各层看做流水线的相继步骤,从而提出了一个在MIMD机器上实现的并行BP算法来提高误差反传递算法的效率。文章的最后,对BP算法的并行实现进行了分析,理论分析结果显示,多种神经网络结构都可有效地并行化。 相似文献
18.
19.
文献[1]曾在已建立的一类新拟牛顿方程Bk 1sk=yk-=yk kγskTsksk的基础上,证明了满足新拟牛顿方程的一类改进BFGS算法在目标函数为一致凸的条件下,具有全局收敛性。此文针对该算法,给出了全局收敛性的另一种证明方法。 相似文献
20.
改进的神经网络快速学习算法 总被引:1,自引:0,他引:1
提出了一种新颖的神经元模型和用于神经网络训练的推广准则,给出了多层神经网络的快速学习算法,研究了一种用于语音识别的时变多层神经网络及其相应的快速学习算法.语音识别实验表明:所给出的快速学习算法能有效地加速网络训练进程. 相似文献