期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《西安交通大学学报》2017,(5)

为了提高大型三维有限元屈曲分析的速度,克服大规模屈曲拓扑优化的计算速度制约,提出了一种基于免组装有限元的线性屈曲分析算法。针对屈曲分析涉及应力刚度矩阵的特殊性,使用了逆迭代法求解特征值问题;利用体素网格的单元一致性,免组装有限元避免了总体刚度矩阵的组装和存储,减少了计算过程中的内存占用,且有利于并行运算;在图形处理器(GPU)上进行稀疏矩阵与向量乘积的运算,利用并行运算进一步加速了有限元的求解速度。算例结果表明,该算法能有效提高大型三维结构屈曲分析的计算速度,与商用软件Ansys、HyperWorks相比,计算时间可减少60%以上,且随着模型自由度的增加,计算速度提高的程度更加显著。相似文献

2.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

3.

求解最大特征值及其对应特征向量的FPGA实现

张雪《科学技术与工程》2012,12(14):3500-3502,3519

针对某些领域只需求解矩阵的最大特征值及其对应特征向量的特点,设计了基于乘幂法的复矩阵的最大特征值及其对应特征向量求解的FPGA实现,提高了运算速度。设计采用状态机设计方法,将9×9复矩阵的定点数格式转化为浮点数运算,使得到的特征值及特征向量有很高的精度。结果表明,本设计稳定并可实现工程化应用。相似文献

4.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献

5.

基于GPU栅格计算关键技术研究及实现

《广西大学学报(自然科学版)》2017,(6)

针对CPU处理栅格计算中的大量并行运算效率不高的瓶颈,选择高并发计算能力的GPU来解决该问题。通过分析GPU通用计算的关键技术,以CUDA为编程环境,分别实现了GPU中简单栅格计算、基于窗口运算的邻域分析和以汇流计算为例的栅格迭代分析。实验结果表明:CPU计算的时间消耗与输入数据长度和数据量线性正相关,GPU并发能力容纳范围内随着输入数据长度幂数增长和数据量增加,时间消耗变化不明显。证明了GPU栅格计算的有效性,具有一定的理论意义和实践价值。相似文献

6.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

7.

基于GPU的对称正定稀疏矩阵复线性方程组迭代算法

李伟伟《吉林大学学报(理学版)》2016,54(2):297-302

提出一种基于图形处理器（GPU）的对称正定稀疏矩阵复线性方程组迭代算法. 首先, 采用基于GPU的共轭梯度法和双共轭梯度法, 实现GPU上的矩阵向量乘操作, 并充分优化相应的算法步骤; 其次, 实现基于GPU的对角元预处理、不完全Cholesky分解和对称超松弛3种预处理方法, 提出一种基于GPU的求解三角方程组并行算法; 最后, 实验分析各种预处理方法的优劣. 实验结果表明, 该算法较CPU串行迭代算法与经典的直接法速度提升较大, 最高可达到76倍的加速比. 相似文献

8.

混合CPU-GPU加速矩阵的Hessenberg约化

沈聪曹婷宋金文高火涛《科学技术与工程》2015,15(29)

求解一般矩阵特征值问题的第一步即进行Hessenberg约化。给出了矩阵的Hessenberg约化算法在GPU上实现的具体方案。针对CPU-GPU混合系统,对基于块计算的Hessenberg约化算法进行了计算任务的划分,并通过详细分析每次循环时各任务的计算量,设计了一种较为合理的分阶段混合调度策略。数值实验表明,使用CPU-GPU混合调度的方案相比直接使用CUBLAS库方案平均获得了约47%的性能提升,而且相比使用CPU上标准的BLAS库函数最高获得了超过7倍的加速比。相似文献

9.

基于GPU的流动影响枝晶生长相场方法

朱昶胜贾金芳冯力肖荣振王永贤《兰州理工大学学报》2015,41(3)

将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果. 相似文献

10.

高性能计算中的亚式期权蒙特卡罗加速方法

姜广鑫徐承龙《同济大学学报(自然科学版)》2013,41(5):792-798

研究蒙特卡罗控制变量方法在CPU(central processing unit)集群和GPU(graphic processing unit)计算环境中的实现问题.以离散取样的随机波动率下的算术平均亚式期权为例,选取合适的控制变量,分别研究了在CPU集群和GPU计算中算法与硬件并行加速两者的运算效率,并讨论了模型参数的变化对计算结果的影响.数值试验表明采用算法与硬件加速相结合的方法可以极大提高计算效率、缩短运算时间. 相似文献

11.

一种简洁高效的加速卷积神经网络的方法

刘进锋《科学技术与工程》2014,14(33)

卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。相似文献

12.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

13.

基于图形处理器加速的叶轮机流场数值模拟研究

张翔黄秀全《科学技术与工程》2013,13(11):3195-3199

近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心差分格式和四步Runge-Kutta时间推进法求解圆柱坐标系下的三维定常欧拉方程来模拟叶轮机械内部流场,并将原有运行在CPU上的代码移植到GPU上。通过比较,获得相同的流场计算结果;在运行速度上,获得了一个数量级的提升。相似文献

14.

关于CPU＋GPU异构计算的研究与分析 总被引：2，自引：0，他引：2

许桢《科技信息》2010,(17):I0097-I0097,I0014

在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,＂结合＂也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU＋GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口（OpenCL）的发布,CPU＋GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。相似文献

15.

基于Fermi架构的超声图像自动增益补偿并行算法

何兴无张霞《科技导报(北京)》2012,30(31):61-65

在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。相似文献

16.

相容次序矩阵的AOR方法的收敛性

罗芳王振芳《山西大同大学学报(自然科学版)》2012,28(1):1-2,24

文章讨论了系数矩阵为相容次序矩阵、Jacobi迭代矩阵的特征值在三种情形时对应的AOR方法的收敛条件,并给出了当Jacobi迭代矩阵特征值为纯虚数和实数时的最优因子的选取方法,最后通过实例进行分析。相似文献

17.

基于多GPU加速的各向异性弹性波正演模拟

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,18(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块GPU并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为2563的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

18.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献