首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 810 毫秒
1.
基于Matlab平台,采用有限元方法实现了对二维拉普拉斯(Laplace)方程在GPU平台上的加速.通过对物理问题的分析与物理模型的构建,完成总体CSR格式存储的刚度矩阵的生成;使用Matlab和CUDA混合编程,在Matlab平台上实现该有限元问题的并行加速;并结合Cu Blas数值计算库采用PCG算法求解装配后的大型线性稀疏方程组,从而高效地迭代出各格点的速度势.该算法既充分发挥了Matlab在数值计算方面的高效性,又充分发挥了GPU在细粒度并行加速方面的优势.  相似文献   

2.
针对减少模拟计算时间及提高问题求解规模问题, 基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现, 并将其整合到TOUGHREACT软件中, 在GPU平台实现了对地下多相流动数值模拟问题的并行求解, 并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法. 实验结果表明, GPU的使用对求解过程有良好的加速效果, 针对不同的网格规模进行多相流模拟实验, 达到了1.7~3.4倍的加速比.  相似文献   

3.
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.  相似文献   

4.
基于CUDA平台的时域有限差分算法研究   总被引:1,自引:1,他引:0  
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。  相似文献   

5.
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。  相似文献   

6.
本文提出电力系统在线安全经济分配(OSED)的一种新算法——常系数降维海森矩阵法(CRH).原始的 OSED 模型首先进行有功问题与无功问题的分解,然后采用非线性优化技术,建立求解有功问题的海森矩阵.假设系统各节点母线电压相角近似相等,变化的大规模海森矩阵将降维成为一个等效的小规模常系数矩阵,从而直接用于对电源变量迭代求解.一个特定的迭代过程随之导出,此迭代过程不仅对电源向量修正求解,并且同时对电压(相角和幅值)向量和拉格朗日乘子向量修正求解.算法的快速性及良好的收敛性能在算例中显示.  相似文献   

7.
提出一种基于图形处理器(GPU)的对称正定稀疏矩阵复线性方程组迭代算法. 首先, 采用基于GPU的共轭梯度法和双共轭梯度法, 实现GPU上的矩阵向量乘操作, 并充分优化相应的算法步骤; 其次, 实现基于GPU的对角元预处理、 不完全Cholesky分解和对称超松弛3种预处理方法, 提出一种基于GPU的求解三角方程组并行算法; 最后, 实验分析各种预处理方法的优劣. 实验结果表明, 该算法较CPU串行迭代算法与经典的直接法速度提升较大, 最高可达到76倍的加速比.  相似文献   

8.
针对压缩感知中观测矩阵优化问题,在分析观测矩阵列向量间的独立性、观测矩阵与稀疏基间的相关性对重构信号质量影响的基础上,采用QR分解增强观测矩阵列向量的独立性,将QR分解与基于梯度投影的Gram观测矩阵优化算法相结合,提出了改进的基于梯度投影的Gram矩阵优化算法.该算法采用等角紧框架逼近Welch界,减小观测矩阵和稀疏基的相关性;采用梯度投影方法求解观测矩阵;再对观测矩阵进行QR分解,增大观测矩阵列向量之间的独立性.仿真实验表明:与基于梯度投影的Gram矩阵优化算法比较,本算法提高了重构信号的质量.  相似文献   

9.
针对轨道不平顺随机特征导致车辆-轨道-地基土耦合系统随机分析计算效率低的问题,采用虚拟激励法降低大样本分析的计算量;针对耦合系统等效刚度矩阵的稀疏特性,采用行压缩(Compressed Sparse Row,CSR)格式存储大型稀疏矩阵,采用预处理共轭梯度法(Preconditioned Conjugate Gradient,PCG)求解对称正定的等效静力平衡方程,最后通过MAT-LAB-CUDA(Compute Unified Device Architecture)混合平台开发基于GPU的并行计算程序.数值算例表明:基于MATLAB-CUDA混合平台求解等效静力平衡方程的效率是串行多点同步算法的86.13倍,大大缩短了随机振动分析的总计算时间,且内存占用小、易于在个人计算机上实施;采用PCG法求解车辆-轨道-地基土耦合系统形成的大型稀疏线性方程组时,建议以加速度指标作为迭代收敛精度的控制指标;可通过选取适当的迭代收敛精度,以达到计算精度和计算效率的平衡.  相似文献   

10.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

11.
对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高.  相似文献   

12.
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要.  相似文献   

13.
为了提高大型三维有限元屈曲分析的速度,克服大规模屈曲拓扑优化的计算速度制约,提出了一种基于免组装有限元的线性屈曲分析算法。针对屈曲分析涉及应力刚度矩阵的特殊性,使用了逆迭代法求解特征值问题;利用体素网格的单元一致性,免组装有限元避免了总体刚度矩阵的组装和存储,减少了计算过程中的内存占用,且有利于并行运算;在图形处理器(GPU)上进行稀疏矩阵与向量乘积的运算,利用并行运算进一步加速了有限元的求解速度。算例结果表明,该算法能有效提高大型三维结构屈曲分析的计算速度,与商用软件Ansys、HyperWorks相比,计算时间可减少60%以上,且随着模型自由度的增加,计算速度提高的程度更加显著。  相似文献   

14.
随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。  相似文献   

15.
介绍了一种基于GPU(Graphic Processing Unit)并行处理的地形三维快速重建算法。该算法利用分而治之的思想,基于CUDA编程框架,首先计算每一点的邻域信息,并在其切平面上进行局部的三角剖分,然后合并形成最终的地形网格。实验结果表明,基于GPU并行化处理的三维重建算法高效、稳定,可以快速的实现结构复杂的大规模地形的三维重建。  相似文献   

16.
基于EBE策略,讨论求解大型线性方程组CG方法及PCG方法的并行计算.在不显式形成总刚度阵的情况下利用单元级矩阵的Cholesky分解构造总刚度阵的近似,形成预条件矩阵,提出了求解大型线性方程组的EBE—PCG并行算法,并讨论了算法在网络机群(COW)并行计算环境下的实现.结合实际算例,对EBE-PCG并行算法进行了并行效率分析.结果表明基于单元级Cholesky分解的EBE—PCG算法具有很好的并行效率,是一种适合网络机群并行环境的高效并行算法.  相似文献   

17.
人类基因组测序工作初步结果显示,MSAPSO算法在求解蛋白质折叠问题时具有不错的求解精度,但是算法执行的时间开销却令人难以接受.针对此问题,使用CUDA编程模型在GPU上实现MSAPSO算法(CUMSA),利用GPU的计算能力,节省求解问题的时间成本.实验结果显示,CUMSA对4条测试序列求解得到的解的质量相对较高,由得到的解的构象图可知,CUMSA能够高效、正确地进行蛋白质折叠结构预测.  相似文献   

18.
为了在不损失模型准确率的同时优化Caffe深度学习框架的训练速度,提出了一种面向Caffe并基于计算统一设备架构(CUDA)流技术的深度学习系统优化方法,以便充分利用GPU资源,提高计算的并行度.在Caffe网络的各层使用异步CUDA流,使其运行在独立线程以并行执行GPU计算任务;同时将批处理块划分成多个数据片,使用调度算法在前向传播和反向传播过程中以流水线形式进行处理.在数据集MNIST和CIFAR-10上的实验结果表明:优化后的系统在训练速度上有明显提升,同时准确率基本无损失.  相似文献   

19.
针对采用传统反向传播(BP)神经网络算法进行逆运动学求解收敛速度慢的问题,提出将微分进化(DE)与粒子群优化(PSO)算法相结合,对用于机器人逆运动学求解的BP神经网络进行优化。基于机器人正解映射建立优化算法的目标函数,在PSO过程中,引入DE操作优化粒子进化方向,并将此混合算法用于BP神经网络权值与阈值的优化。对KUKA机器人进行仿真实验,结果表明:采用该文方法对机器人逆运动学问题的求解精度高,求得的关节角度误差小于0.1°;逆运动学求解结果所对应位姿矩阵的位置误差在0.1 mm数量级,具有较好的泛化能力。该文方法满足机器人位置和姿态方面的精度要求。  相似文献   

20.
稀疏线性方程组的求解是许多大规模科学计算任务的核心环节。目前,并行算法的发展为稀疏线性方程组的求解提供了新的思路和强有力的工具。然而,现有的并行算法存在一些缺陷,如最优子矩阵的划分难以获得、并行任务间的同步开销较大等。针对上述问题,该文提出一种基于变量相关性分解方法的稀疏线性方程组并行求解算法。该算法首先对系数矩阵进行不完全LU分解,得到上三角和下三角方程组,然后在这2个方程组求解过程中利用y与x的关系分解变量的相关性,同时并行计算变量的独立部分值,最后将所有的独立部分值相加得到变量的最终值。由于算法中变量的求解无需等待其所有前继变量计算完成即可进行部分值计算,因此有效减少了算法的执行时间,进而提高了算法的求解速度及并行度。实验结果表明:与调用cusparse库函数实现的并行求解方法相比,该文提出的算法能将稀疏线性方程组的求解速度提升了50%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号