首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 687 毫秒
1.
针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率.  相似文献   

2.
为解决作为分析周期性结构的时域数值算法本身在计算单角度入射时依然存在效率偏低的这一问题,提出了一种改进的谱FDTD方法,并运用图形处理器(GPU)对算法进行硬件加速.改进的算法在保证单频点运算结果精确的前提下,通过降低单次运算对运算结果频谱分辨率的要求以降低总体的运算时间.算例验证表明,在保证同等精度的前提下,改进后的算法将单角度斜入射问题的计算效率提高了1倍以上,并在此基础上通过GPU硬件加速成功实现了20倍以上的加速比,这证明了GPU加速的改进谱FDTD法的可行性与高效性.  相似文献   

3.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

4.
彩虹表密码分析算法的图形处理器优化设计与实现   总被引:1,自引:0,他引:1  
设计了一种在图形处理器(GPU)上的彩虹表密钥分析算法.结合GPU单指令多线程的特点改进了Oechslin的彩虹表算法,将预处理中彩虹链的计算分别映射到GPU的单个线程,并利用预计算链提高了在线分析的效率.所使用的硬件平台GPU Tesla C1060 相对于CPU Core2 Duo 2.8 GHz,在运行速度方面,预处理提高了41.2倍(每秒110×106次DES加密),在线分析提高了3.52倍.在此系统上用1.3 GB的磁盘空间,平均2.73 s的在线分析时间以及46%的概率,成功获得了加密选择明文的40 bit DES密钥.  相似文献   

5.
将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果.  相似文献   

6.
针对卷积神经网络在自然图像识别上的局限性,提出一种适用于自然图像识别的卷积神经网络算法,使其在自然图像识别的准确率和速度上取得更好的效果.首先利用MAPREDUCE实现算法的并行化,并利用GPU技术对该算法进行加速;再次利用多区域的逻辑回归计算方法提高图像识别的准确率.在实验环境下验证了改进算法的正确性和有效性.  相似文献   

7.
针对复杂环境下移动机器人的全局最优路径规划,提出一种基于目标偏置扩展和贝塞尔(Bezier)插值方法的改进RRT*FN路径规划算法.改进算法在未找到初始路径时采用一定概率进行随机点的目标偏置选择,确定初始路径后使用启发式采样方法,使随机采样点围绕初始路径进行迭代选择,提高路径规划的导向性.当改进算法还未找到初始路径时,删除树中远离目标点并且没有子节点的节点;当改进算法找到初始路径时,删除树中远离最优路径且没有子节点的节点,保留高性能节点,提高算法收敛到最优路径的效率.利用贝塞尔(Bezier)插值方法平滑路径.在MATLAB仿真平台和ROS机器人仿真平台分别进行2D和3D的对比实验,结果验证了所提算法的有效性和优越性.  相似文献   

8.
现有基于对象的视频摘要算法较少考虑计算效率,导致其难以满足大规模安防监控领域的性能要求.为此,文中提出了改进的基于对象的视频摘要算法,通过降低帧率和分辨率、运动片段检测以及基于重心的对象跟踪等策略来提升算法效率.此外,为充分挖掘CPU和GPU的计算能力,设计了相应的多线程算法,并对关键步骤进行GPU优化,以进一步加速算法性能.实验结果表明,改进算法和加速策略可以大幅提升视频摘要的计算速度.  相似文献   

9.
提出了一种基于群体智能的设备性能横向比较算法,该算法将设备模式投影于二维平面上,然后依据群体智能聚类,实现设备性能的自组织聚类分析.为了提高群体智能聚类算法的运行效率,提出了利用主成分分析改善模式投影时的随机性.此外,为了减小参数选取对算法的影响,提出了一种更简单的相似度衡量公式.将改进后的算法与原算法进行比较,结果显示,改进算法的运行效率更高.利用改进算法对某中央空调的数据进行分析,验证了算法能满足设备性能自组织聚类的要求.  相似文献   

10.
基于GPU的SVM参数优化并行算法   总被引:1,自引:0,他引:1  
为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优化算法的并行化方案,并在单GeForce GT 650M GPU卡上进行了试验验证.结果表明,并行化网格搜索和并行化粒子群参数优化算法不仅可以取得与非并行化参数优化算法相同的优化效果,而且执行时间大大减小,其中并行粒子群参数优化算法的加速比可高达26.85,大幅提升了SVM的参数优化效率.  相似文献   

11.
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证.  相似文献   

12.
最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发的优势,采用并行蚂蚁策略将MMAS在CPU-GPU协同异构计算平台上并发实现.算法在GPU上运行时的影响因素,如数据传输、内存层次、库函数调用等,也得到有效分析,并作出针对性优化.试验最终取得了高达13倍的加速,表明并行MMAS策略具有高效性和实用性.  相似文献   

13.
杨桂华  卫嘉乐 《科学技术与工程》2022,22(34):15213-15220
传统的仓库物流AGV移动机器人一般按照铺设的磁轨道进行作业,导致机器人搬运路线并非最优路线,工作效率较低。本文研究了一种基于ROS操作系统的路径规划自主控制算法,从实际应用场景出发,对移动机器人运行的仓储环境SLAM地图构建,对传统的A*算法和DWA算法进行改进优化,并在ROS开发平台上开发程序,进行实验验证。实验结果表明,该方法能有效实现自主导航、动态避障功能以及路径优化,并从路径转折次数、运行总时间、运行总路径长度等角度验证了策略的有效性。  相似文献   

14.
FFT算法是高度并行的分治算法,因此适合在GPU(Graphics Processing Unit,图形处理器)的CUDA(Compure Unified Device Architecture,计算统一设备体系结构)构架上实现.阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验.实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右.  相似文献   

15.
大型特种车驾驶模拟系统体感算法研究   总被引:1,自引:0,他引:1  
针对大型特种车的运动特点,建立了车体与动感平台坐标之间的转换关系,研究了与之相适应的体感模拟滤波算法,并用该算法对模拟信号和虚拟车辆的运行输出信号进行计算分析;通过滤波实例和人体对运动感觉的评价模型,验证了该算法计算输出结果能够在六自由度动感平台上实现,并为驾驶员提供逼真的运动感觉,达到预期效果.  相似文献   

16.
基于CUDA平台的时域有限差分算法研究   总被引:1,自引:1,他引:0  
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。  相似文献   

17.
介绍OpenCL基本原理及其特点,分析其在生物医学图像处理中的应用,并以图像清晰度计算算法四邻域法为例进行算法并行化。计算结果表明,在PC平台进行图像清晰度计算时,基于GPU计算的OpenCL技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的生物医学图像处理及可视化应用。  相似文献   

18.
并行计算是提高音频大地电磁(audio-frequency magnetotelluric method,AMT)数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号