期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

彩虹表密码分析算法的图形处理器优化设计与实现 总被引：1，自引：0，他引：1

金铨谷大武赵建杰《上海交通大学学报》2011,45(7):1006-1011

设计了一种在图形处理器(GPU)上的彩虹表密钥分析算法.结合GPU单指令多线程的特点改进了Oechslin的彩虹表算法,将预处理中彩虹链的计算分别映射到GPU的单个线程,并利用预计算链提高了在线分析的效率.所使用的硬件平台GPU Tesla C1060 相对于CPU Core2 Duo 2.8 GHz,在运行速度方面,预处理提高了41.2倍(每秒110×106次DES加密),在线分析提高了3.52倍.在此系统上用1.3 GB的磁盘空间,平均2.73 s的在线分析时间以及46%的概率,成功获得了加密选择明文的40 bit DES密钥. 相似文献

2.

图形处理器上CSB~+-树索引的并行构建算法

刘勇奚建清黄东平贾连印苗德成《华南理工大学学报(自然科学版)》2014,(1):123-127,134

为提高缓存敏感CSB+-树索引的操作效率,在图形处理器(GPU)上研究CSB+-树的并行构建和查询性能.通过分析索引树内部节点的每一键与对应叶子节点的映射关系,提出了一种一次性并行构建CSB+-树所有内部节点键值的无锁并行算法,以最大并行度来快速构建索引树.该算法通过设计GPU平台上支持CSB+-树的索引数据任意伸缩的动态数组来解决GPU上不能动态分配显存空间的问题,通过在索引内部节点的边界增加填充位来减少线程块的线程分支数,从而提高CSB+-树的查询效率.实验结果表明,文中所提算法的运行时间比基于单个节点和基于树层的并行算法分别提高了31.0和1.4倍. 相似文献

3.

基于GPU的关系型流处理系统实现与优化

黄皓李志方王嘉伦翁楚良《华东师范大学学报(自然科学版)》2019,(5)

现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源,实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间,并实现多种调优策略以适应不同场景.实验表明,单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming. 相似文献

4.

基于CUDA流技术的深度学习系统优化

蒋文斌刘湃陈雨浩张杨松《华中科技大学学报(自然科学版)》2020,48(7):107-111

为了在不损失模型准确率的同时优化Caffe深度学习框架的训练速度,提出了一种面向Caffe并基于计算统一设备架构(CUDA)流技术的深度学习系统优化方法,以便充分利用GPU资源,提高计算的并行度.在Caffe网络的各层使用异步CUDA流,使其运行在独立线程以并行执行GPU计算任务;同时将批处理块划分成多个数据片,使用调度算法在前向传播和反向传播过程中以流水线形式进行处理.在数据集MNIST和CIFAR-10上的实验结果表明:优化后的系统在训练速度上有明显提升,同时准确率基本无损失. 相似文献

5.

基于CUDA的格子Boltzmann数值模拟加速实现

覃章荣张超英丘滨李圆圆莫刘刘《广西师范大学学报(自然科学版)》2012,30(4)

针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行IBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS 450 GPU和Intel Core i5-760 4核CPU进行计算.结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径. 相似文献

6.

采用GPU的提升纹理缓存命中光线投射方法

杜松江张思超《华侨大学学报(自然科学版)》2016,(5):627-632

提出一种改善纹理缓存命中率的方法.首先,分析图形处理器(GPU)中三维纹理组织的布局特性;进而提出根据视点的变化动态选择线程配置的策略,目的在于最小化warp级的投射光线纹理访存跨距;最后,算法用CUDA(compute unified device architecture)实现并验证.实验结果表明:当视点分别围绕x,y,z坐标轴旋转时,改进后算法的帧速率分别为改进前的1.08,1.14,0.98倍. 相似文献

7.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

8.

一种利用Spark-GPU加速 CT图像重建的设计

熊威曾有灵李喆《暨南大学学报(自然科学与医学版)》2019,40(6)

目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速度有近10倍的提升.结论:Spark和GPU结合能够扩展Spark的性能,突破单机加速瓶颈,大幅提升计算速度,对于不同的图像重建算法均有良好的加速效果,表明Spark-GPU在图像重建方向有良好的应用前景. 相似文献

9.

基于GPU的隐式不可压缩SPH流体模拟

《河南师范大学学报(自然科学版)》2015,(5):159-164

提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比. 相似文献

10.

基于GPU的目标识别算法的并行化研究

《太原理工大学学报》2015,(6)

针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。相似文献

11.

基于多GPU加速的各向异性弹性波正演模拟

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,18(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块GPU并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为2563的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

12.

基于多核的粗粒度2.5维电磁场正演并行算法

白洪涛李昂欧阳丹彤邢书豪刘雪飞《吉林大学学报(理学版)》2014,52(3):509-514

基于CPU多核处理器实现了粗粒度2.5维电磁场并行正演算法, 使用OpenMP对串行算法的频率域进行粗粒度分解, 主线程进行任务分配, 从线程在CPU多核上并行计算各频率域电磁场值, 并分析了OpenMP并行效率与模型及核心数目的关系. 多组不同模型测试结果表明, 本文并行方法与串行方法得到的数值结果相同, 并获得了接近CPU逻辑核心数目的性能提升. 相似文献

13.

基于GPU的多尺度Retinex图像增强算法实现

基于GPU的多尺度Retinex图像增强算法实现《山东科学》2017,30(3):103-109

为提高多尺度Retinex算法的实时性,本文提出了基于GPU的多尺度Retinex图像增强算法,通过对算法进行数据分析和并行性挖掘,将高斯滤波、卷积和对数差分等计算量非常耗时的模块放到GPU中,利用大规模并行线程处理来提高效率。在GeForce GTX 480和CUDA 5.5中进行实验,结果表明该算法能显著提高计算速度,且随着图像分辨率的增加,最大加速比达160倍。相似文献

14.

Iterative Reconstruction for Transmission Tomography on GPU Using Nvidia CUDA

Damien Vintache Bernard Humbert David Brasse 《清华大学学报》2010,15(1):11-16

The iterative reconstruction algorithms for X-ray CT image reconstruction suffer from their high computational cost.Recently Nvidia releases common unified device architecture(CUDA),allowing developers to access to the processing power of Nvidia graphical processing units(GPUs),in order to perform general purpose computations.The use of the GPU,as an alternative computation platform,allows decreasing processing times,for parallel algorithms.This paper aims to demonstrate the feasibility of such an implement... 相似文献

15.

Windows环境下河网水流多线程并行计算

王船海曾贤敏《河海大学学报(自然科学版)》2008,36(1):30-34

基于多任务Windows操作系统的线程和事件机制,利用Windows系统API函数创建多个线程,并对共享内存式的多个线程运行互斥与同步实行统一管理,从而实现了河网水流的多线程并行计算.测试结果表明,采用与CPU内核数相同的线程数进行并行计算,可以达到最佳的并行计算效果. 相似文献

16.

基于流水线架构的卷积神经网络FPGA实现

崔江伟周勇胜张帆尹嫱项德良《北京化工大学学报(自然科学版)》2021,48(5):111-118

卷积神经网络（CNN）已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列（field programmable gate array,FPGA）能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。相似文献

17.

流动人口城市融入的复杂性逻辑

李斌毛鹏飞《湖南大学学报(自然科学版)》2017,44(4):126-132

为实现高光谱影像数据快速降维,基于nVidia 的图像处理单元(graphic processing unit, GPU)研究最大噪声分数变换（Maximum Noise Fraction Rotation,MNF Rotation）降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L（MNF-on-Library）算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势. 相似文献

18.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

19.

静电纺丝法制备PVP纳米纤维绳的研究

卢才英郑曦陈日耀陈晓陈震《福建师范大学学报(自然科学版)》2010,26(2)

采用双针尖平行放置的一对细小铜针作为接收装置,聚乙烯基吡咯烷酮(PVP)无水乙醇质量分数为10%,电压25kV,在不同的旋转数下纺出了PVP纳米纤维绳.在电纺丝喷丝针头和接收铜针间的静电库仑引力,以及纺丝间库仑斥力的双重作用下,电纺出PVP纳米纤维,纺丝电源中断后,一端的铜针固定,另一端作高速旋转,在接收器铜针的高速旋转下最终制得PVP纳米纤维绳.用扫描电子显微镜(SEM)对其进行表征.实验结果表明,接收器旋转速度和接收距离对多纤维结构的形貌有显著影响.讨论了纳米纤维的形成机理. 相似文献