期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

2.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

3.

地下多相流动数值模拟的GPU并行优化

魏晓辉朱彤李洪亮李维山许天福《吉林大学学报(理学版)》2013,51(2):250-256

针对减少模拟计算时间及提高问题求解规模问题, 基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现, 并将其整合到TOUGHREACT软件中, 在GPU平台实现了对地下多相流动数值模拟问题的并行求解, 并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法. 实验结果表明, GPU的使用对求解过程有良好的加速效果, 针对不同的网格规模进行多相流模拟实验, 达到了1.7~3.4倍的加速比. 相似文献

4.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

5.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

6.

高性能计算中的亚式期权蒙特卡罗加速方法

姜广鑫徐承龙《同济大学学报(自然科学版)》2013,41(5):792-798

研究蒙特卡罗控制变量方法在CPU(central processing unit)集群和GPU(graphic processing unit)计算环境中的实现问题.以离散取样的随机波动率下的算术平均亚式期权为例,选取合适的控制变量,分别研究了在CPU集群和GPU计算中算法与硬件并行加速两者的运算效率,并讨论了模型参数的变化对计算结果的影响.数值试验表明采用算法与硬件加速相结合的方法可以极大提高计算效率、缩短运算时间. 相似文献

7.

GPU下的二叉树定价模型

桂叶晨刘涛彭蓉文高进《华中科技大学学报(自然科学版)》2011,39(Z1):102-105

针对二叉树定价模型算法计算量大、耗时长的问题,利用CUDA架构对该模型进行了并行改造,在GPU上对该算法进行了加速测试与相应的性能分析.实验结果表明:在单个GTX295节点上,对于数据规模为16 K的期权,GPU相对于其4核Xeon E5520的加速比已达约200倍,GPU每s所能处理的期权数量达到了24 852个,符合实时商业引擎的要求.另外,通过衡量一些关键指标,考察了该算法在GPU上的扩展性及其计算精度对结果的影响. 相似文献

8.

基于GPU的目标识别算法的并行化研究

《太原理工大学学报》2015,(6)

针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。相似文献

9.

基于GPU 加速的边界面法正则积分的研究

张见明余列祥刘路平《湖南大学学报(自然科学版)》2013,40(3):41-45

基于GPU高性能并行计算,在CUDA编程环境中实现边界面法正则积分的并行加速.在NVIDIA GTX680GPU和英特尔(R)酷睿(TM)i7-3770KCPU的计算平台上与传统的正则单元积分对比.数值算例表明,在保证相同精度的前提下,加速比可达到8.3. 相似文献

10.

基于GPU的并行拟牛顿神经网络训练算法设计

刘强李佳峻《河海大学学报(自然科学版)》2018,46(5):458-463

针对人工神经网络训练需要极强的计算能力和高效的最优解搜寻方法的问题,提出基于GPU的BFGS拟牛顿神经网络训练算法的并行实现。该并行实现将BFGS算法划分为不同的功能模块,针对不同模块特点采用混合的数据并行模式,充分利用GPU的处理和存储资源,取得较好的加速效果。试验结果显示:在复杂的神经网络结构下,基于GPU的并行神经网络的训练速度相比于基于CPU的实现方法最高提升了80倍;在微波器件的建模测试中,基于GPU的并行神经网络的速度相比于Neuro Modeler软件提升了430倍,训练误差在1%左右。相似文献

11.

基于GPU的K-means并行算法研究与实现

原建伟王坤李爱国《陕西理工学院学报(自然科学版)》2012,28(5):44-48

分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性.研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高. 相似文献

12.

加快交互式光线跟踪渲染速度的技术研究

童莹张健《南京工程学院学报(自然科学版)》2010,8(4)

优化KD-tree组织结构,使其适合在GPU上存储;合理分配图形,加速硬件GPU内存,细化核函数,并基于该平台并行实现KD-tree的遍历求交;同时利用OpenGL硬件接口,采用公式变换、插值计算等方法,加快视点视角变化时图像渲染速度.试验结果表明,优化数据结构、选择硬件平台和加速渲染引擎是提高交互式光线跟踪渲染速度的三个重要因素. 相似文献

13.

基于GPU的并行克里格及其在储量估算中的应用

杨昭颖邓维科张光妲余先川《北京师范大学学报(自然科学版)》2017,53(2):155-158

克里格法是空间信息统计学中最主要和最基本的一种局部估计方法, 利用区域化变量的空间分布特征实现对未知区域的估计. 针对克里格算法高时间复杂度问题, 提出一种基于GPU 的并行克里格算法, 实现对克里格插值算法的改进, 在精度不降低的情况下很好地解决了克里格算法高时间复杂度的问题. 西藏甲码铜资源量估算结果表明, 并行克里格方法具有良好的加速比与并行计算效率, 验证了该方法的可实践性, 与纯CPU 计算的对比实验验证了GPU 并行计算结果的正确性与可信度. 相似文献

14.

嵌入式GPU滑动聚束SAR实时成像方法

胡善清李慧星李炳沂谢宜壮陈亮陈禾《北京理工大学学报》2020,40(9):1018-1025

针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题，研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源，提出一种内存分割与重配置方案，采用页锁定内存和zero-copy技术，实现数传-计算并行化处理；为解决实时性问题，在算法并行计算环节，利用共享内存、寄存器等资源实现大规模数据并行.结果表明，在TX2上完成16 384×8 192点滑聚SAR成像处理时间为12.66 s，功耗为15 W.该优化方法也适用于其他模式的雷达处理算法，并可为未来嵌入式实时成像处理提供参考. 相似文献

15.

基于卷积神经网络的图像识别算法研究

张荣磊田爱奎谭浩郑睿《山东理工大学学报：自然科学版》2018,(1)

针对卷积神经网络在自然图像识别上的局限性,提出一种适用于自然图像识别的卷积神经网络算法,使其在自然图像识别的准确率和速度上取得更好的效果.首先利用MAPREDUCE实现算法的并行化,并利用GPU技术对该算法进行加速;再次利用多区域的逻辑回归计算方法提高图像识别的准确率.在实验环境下验证了改进算法的正确性和有效性. 相似文献

16.

GPU加速高性能计算平台上容器性能评估

《云南民族大学学报(自然科学版)》2021,(1):58-62

容器是近年来新兴的虚拟化工具,可以实现资源和系统环境的隔离.容器能够帮助高性能计算应用程序将依赖打包进轻量级可移植的环境中,解决因软件配置无法在高性能计算资源上运行的问题.容器在虚拟化宿主机过程中具有性能开销,为了解GPU加速高性能计算平台上容器虚拟化技术的性能特征,使用标准基准测试工具对Docker容器进行了全面的性能评估,包括文件系统访问性能,并行通信性能及GPU计算性能.评估结果表明,在文件系统I/O开销及GPU计算开销方面,容器具备近乎原生宿主机的性能,容器的并行通信开销随着网络负载的增大而增大.在仅考虑性能的情况下,容器方案适用于通信负载不大的并行应用程序. 相似文献

17.

基于GPU架构的SAR回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,14(13)

为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

18.

基于图形处理单元架构的合成孔径雷达回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,(13):85-89

为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

19.

基于异构平台的并行最大最小蚁群算法

黄震华赵振岐林培裕梅建华《同济大学学报(自然科学版)》2016,44(12):1949-1955

最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发的优势,采用并行蚂蚁策略将MMAS在CPU-GPU协同异构计算平台上并发实现.算法在GPU上运行时的影响因素,如数据传输、内存层次、库函数调用等,也得到有效分析,并作出针对性优化.试验最终取得了高达13倍的加速,表明并行MMAS策略具有高效性和实用性. 相似文献

20.

基于GPU的流动影响枝晶生长相场方法

朱昶胜贾金芳冯力肖荣振王永贤《兰州理工大学学报》2015,41(3)

将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果. 相似文献