期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

熊大卫胡建陈园《西南民族大学学报(自然科学版)》2023,(4):424-428

针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法：以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上. 相似文献

2.

基于CUDA和深度置信网络的手写字符识别

陆军建林家骏《华东理工大学学报(自然科学版)》2015,41(2):210-215

为了应对海量的字符(手写)识别,提出了一种将统一计算设备架构(Compute Unified Device Architecture,CUDA)和深度置信网络相结合的方法进行手写字符识别。该方法结合受限玻尔兹曼机和反向传播神经网络形成深度置信网络对字符图片数据进行识别,并且使用CUDA在图形处理器(GPU)上进行并行计算来完成识别过程。实验结果表明,使用该方法后,在不降低识别精度的情况下手写字符识别的速度大幅提升。相似文献

3.

基于Caffe的嵌入式多核处理器深度学习框架并行实现

高榕张良梅魁志《西安交通大学学报》2018,(6)

针对开源深度学习快速特征嵌入的卷积框架(Caffe)在Android移动端进行前向计算时存在的兼容性和时间性能差的问题,提出了基于Caffe的嵌入式同构、异构并行化改进设计方法。该方法将Caffe及其第三方库通过交叉编译移植到嵌入式移动平台后,利用同构的多核多线程方法分别对卷积层、输入帧之间的部分前向计算过程进行了并行化;实现了采用开放运算语言(OpenCL)的异构图形处理器(GPU)卷积计算,进一步提升了框架的处理速度。对3种经典的深度神经网络模型MNIST、Cifar-10和CaffeNet进行了测试对比,测试结果表明:在没有任何模型精度损失的条件下,并行后的前向计算耗时明显低于并行前,时间性能提升最高达到2倍。所提方法能够将深度学习框架Caffe高效地、并行地部署和应用于嵌入式移动多核芯片上。相似文献

4.

基于CUDA的格子Boltzmann数值模拟加速实现

覃章荣张超英丘滨李圆圆莫刘刘《广西师范大学学报(自然科学版)》2012,30(4)

针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行IBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS 450 GPU和Intel Core i5-760 4核CPU进行计算.结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径. 相似文献

5.

基于AVX2指令集的深度学习混合运算策略

蒋文斌王宏斌刘湃陈雨浩《清华大学学报(自然科学版)》2020,60(5):408-414

由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大的网络层放在CPU端计算,并通过AVX2指令集提高CPU端的计算效率。核心技术点包括网络模型的切分与协调、基于AVX2指令的应用代码矢量化等。上述策略最终在Caffe上实现。在包括CIFAR-10、 ImageNet在内的典型数据集上的实验结果表明:采用混合运算策略后,Caffe能够正常运行更大型神经网络模型,并保持较高的执行效率。相似文献

6.

基于图形处理单元架构的合成孔径雷达回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,(13):85-89

为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

7.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

8.

基于GPU架构的SAR回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,14(13)

为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献

9.

基于CUDA的晶格Boltzmann并行算法的综合优化设计

张超英黎槟华覃章荣《广西师范大学学报(自然科学版)》2012,30(3)

本文在CUDA框架下设计与实现基于GPU的晶格Boltzmann方法(LBM)的并行算法.为进一步提高计算效率,本文分别研究几种典型的优化策略对计算效率的影响,并给出了一种集多优化策略为一体的综合优化解决方案.以圆管内Poiseuille流为算例的实验表明,采用新综合优化方案设计的LBM并行算法能够获得更高的计算效率. 相似文献

10.

地下多相流动数值模拟的GPU并行优化

魏晓辉朱彤李洪亮李维山许天福《吉林大学学报(理学版)》2013,51(2):250-256

针对减少模拟计算时间及提高问题求解规模问题, 基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现, 并将其整合到TOUGHREACT软件中, 在GPU平台实现了对地下多相流动数值模拟问题的并行求解, 并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法. 实验结果表明, GPU的使用对求解过程有良好的加速效果, 针对不同的网格规模进行多相流模拟实验, 达到了1.7~3.4倍的加速比. 相似文献

11.

桌面计算机上利用格子Boltzmann方法的GPU计算

刘强谢伟邱辽原解学参《上海交通大学学报》2014,48(9):1329-1333

介绍了在桌面计算机上利用格子Boltzmann方法(LBM)与图形处理器(GPU)计算的发展背景,分析了LBM的标准形式及其天生并行特性的成因,介绍了所采用的CUDA编程模型及Kepler计算架构.为了验证桌面计算机上利用LBM的GPU计算的应用能力,对二维方柱绕流问题进行了数值模拟,并将模拟结果与有限体积法的计算结果进行对比.结果表明:对于方柱绕流问题,GPU计算的模拟计算效率约为CPU计算的3.4倍,桌面计算机上利用LBM的GPU计算具有一定的通用科学计算能力. 相似文献

12.

一种利用Spark-GPU加速 CT图像重建的设计

熊威曾有灵李喆《暨南大学学报(自然科学与医学版)》2019,40(6)

目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速度有近10倍的提升.结论:Spark和GPU结合能够扩展Spark的性能,突破单机加速瓶颈,大幅提升计算速度,对于不同的图像重建算法均有良好的加速效果,表明Spark-GPU在图像重建方向有良好的应用前景. 相似文献

13.

基于GPU交互式光线跟踪算法的设计与实现 总被引：1，自引：0，他引：1

陆建勇曹雪虹焦良葆《南京工程学院学报(自然科学版)》2009,7(3):61-67

由于GPU并行处理能力和可编程能力的提高,计算量巨大的光线跟踪算法在GPU上的实现成为研究热点．在CUDA平台上验证了Foley等人所采用的KD-tree加速算法,实现了交互式光线跟踪．在图像分辨率为512×512,跟踪深度为4时,针对复杂场薏的渲染速度达到15f／s,基本实现交互式光线跟踪．相似文献

14.

N3LDG: 一种轻量级自然语言处理深度学习库

王潜升余南张梅山韩子嘉付国宏《北京大学学报(自然科学版)》2019,55(1):113-119

提出一种用于自然语言处理的轻量级深度学习库N3LDG, 可以支持动态地构建计算图, 并能自动地批量化执行计算图。实验显示, 当训练卷积神经网络、双向LSTM和树结构LSTM时, N3LDG都能高效地构建与执行计算图; 当使用CPU训练上述模型时, N3LDG的训练速度优于PyTorch; 当使用GPU训练卷积神经网络和树结构LSTM模型时, N3LDG的训练速度优于PyTorch。相似文献

15.

基于AlexNet网络的动物图片分类

周德良《贵州大学学报(自然科学版)》2019,36(6)

Caffe是目前广泛应用于计算机视觉处理的深度学习框架之一,支持卷积神经网络的模型训练与预测。本文利用caffe支持的AlexNet卷积神经网络分别基于加载与不加载基础模型两种模式对五类动物图片进行分类学习与训练,发现加载基础模型的网络模型收敛耗时仅2.77 s,测试集准确率接近100%,实用测试准确率达到99%,且训练与测试损失曲线高度重合,但另一模式的网络模型收敛耗时多达68.89 s,测试集准确率仅为95%,实用测试准确率仅94%,且训练与测试损失曲线存在严重分化。图像分类不仅可以对不同物类的图像进行准确分类,同样可以对不同属性、状态或特性的图像进行准确分类。相似文献

16.

基于包围跳跃的计算统一设备架构光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,(12):251-255

针对传统光线投射算法绘制速度慢和图形处理器(graphics processing unit,GPU)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的计算统一设备架构(compute unified device architecture,CUDA)光线投射算法。首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,在保证图像质量的同时,绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

17.

基于深度学习的农作物病害检测

魏超范自柱张泓王松《江苏大学学报(自然科学版)》2019,40(2)

针对在大规模农业种植中传统人工农作物病虫害预防和治理上常存在的问题,应用深度学习算法来进行农作物病害的检测.对47 637张图片进行病害识别检测,数据包含10个物种(主要农作物有番茄、土豆、玉米等),27种病害,总共61个分类标签.采用目前流行的深度网络结构如Vgg-16,ResNetV1-101和InceptionV4等6种模型对图像进行特征抽取.采用交叉熵和正则化项组成损失函数进行反向传播调整,对数据集进行4种不同情况的划分;并且使用了初始化和迁移训练两种训练方式,分别对6种网络架构在不同学习率下进行试验比较.结果表明:采用初始化训练对61类病害情况的最高识别准确率为84.6%;而在迁移训练中,使用合适的学习率训练,最高识别准确率达到86.1%;对3类疾病程度分类准确率为87.4%,对28种病害类型分类准确率为98.2%,对10类物种识别分类准确率为99.3%. 相似文献

18.

基于包围跳跃的CUDA光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,14(12)

针对传统光线投射算法绘制速度慢和GPU (Graphics Processing Unit,图形处理器)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的CUDA(Compute Unified Device Architecture,计算统一设备架构)光线投射算法,首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,本文的方法在保证图像质量的同时,在绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

19.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献

20.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献