首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对粒子滤波算法在重采样环节因粒子交互而不能充分并行处理的问题,提出了基于图形处理器(GPU)的并行骨干粒子群优化粒子滤波算法(BBPSO-PF).首先利用骨干粒子群算法具有易并行的特点优化粒子滤波算法重采样环节,从算法结构上提高粒子滤波算法的并行度.然后利用GPU的多线程架构并行处理每个粒子群的数据,每个线程负责一个粒子群,使粒子群之间得到并行化处理,解决粒子滤波重采样因粒子交互而不能充分并行的缺点.最后利用GPU中对齐与合并的内存访问原则,给粒子群设计高效的数据存储结构,降低内存访问事务,提高粒子群的数据存取速度,进一步提高算法实时性.该方法在保证算法精度前提下明显提高了算法的实时性.  相似文献   

2.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

3.
为了实现大规模稀疏矩阵的高效求解,该文利用GPU(graphics processing unit)高带宽、低成本及强大的并行处理能力等优势,基于CUDA(compute unified device architecture)技术对采用CSR(compress spare row)格式存储的大规模稀疏矩阵进行了预处理共轭梯度(PCG)算法的求解优化。采用了存储器优化和数据流优化这2大并行优化策略,对稀疏矩阵与向量乘积和向量间内积与归约的GPU优化步骤进行了详细介绍。通过对实际的水工隧洞模型里的稀疏矩阵求解,得到在GTX580显卡上的计算效率是Intel i7CPU的13倍。该文提出的基于CUDA的PCG算法具备快速、高效求解大规模稀疏矩阵的能力。  相似文献   

4.
提出一种基于图形处理器(GPU)的对称正定稀疏矩阵复线性方程组迭代算法. 首先, 采用基于GPU的共轭梯度法和双共轭梯度法, 实现GPU上的矩阵向量乘操作, 并充分优化相应的算法步骤; 其次, 实现基于GPU的对角元预处理、 不完全Cholesky分解和对称超松弛3种预处理方法, 提出一种基于GPU的求解三角方程组并行算法; 最后, 实验分析各种预处理方法的优劣. 实验结果表明, 该算法较CPU串行迭代算法与经典的直接法速度提升较大, 最高可达到76倍的加速比.  相似文献   

5.
提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比.  相似文献   

6.
提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差.  相似文献   

7.
针对减少模拟计算时间及提高问题求解规模问题, 基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现, 并将其整合到TOUGHREACT软件中, 在GPU平台实现了对地下多相流动数值模拟问题的并行求解, 并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法. 实验结果表明, GPU的使用对求解过程有良好的加速效果, 针对不同的网格规模进行多相流模拟实验, 达到了1.7~3.4倍的加速比.  相似文献   

8.
基于Intel第二代Xeon Phi代号为Knights Landing(KNL)众核处理器平台,利用MPI+OpenMP混合编程策略对并行矩量法(Method of Moments, MoM)进行了优化.利用OpenMP编程技术和KNL的计算资源,提高了CPU(Center Processing Unit)使用率;线程的引入,大幅度减少了矩阵填充过程中进程间的冗余积分;为发挥KNL的512位矢量宽度优势,通过向量化优化进一步提高了循环结构的执行效率;对计算密集型、CPU利用率高的矩阵求解过程,通过引入的OpenMP编程策略,减少了MPI(Message Passing Interface)通信时间,加速了求解.数值结果表明,通过在KNL众核处理器平台上的优化,可以极大地提升矩量法计算复杂电磁问题的效率.  相似文献   

9.
为了在不损失模型准确率的同时优化Caffe深度学习框架的训练速度,提出了一种面向Caffe并基于计算统一设备架构(CUDA)流技术的深度学习系统优化方法,以便充分利用GPU资源,提高计算的并行度.在Caffe网络的各层使用异步CUDA流,使其运行在独立线程以并行执行GPU计算任务;同时将批处理块划分成多个数据片,使用调度算法在前向传播和反向传播过程中以流水线形式进行处理.在数据集MNIST和CIFAR-10上的实验结果表明:优化后的系统在训练速度上有明显提升,同时准确率基本无损失.  相似文献   

10.
为满足跟踪识别系统对图像复原的实时性需求,在图形处理器(GPU)上进行高效实现小尺寸二维FFT的优化策略研究。首先对二维FFT算法进行分析,根据图形处理器的特点,提出基于图形处理器的并行执行模型。基于该模型,从算法的复杂度、跳转指令的数量、共享存储器的访问冲突以及共享存储器的访问延迟及图形处理器的利用效率这4个方面进行优化策略的研究,提出相应的优化方法。在图像复原的实验中,先对基于GPU的小尺寸FFT优化方法与基于CPU的MATLAB传统算法进行计算精度对比,然后基于4种不同尺寸的图像在相同的GPU平台上再与NVIDIA公司提供CUFFT函数库复原算法进行计算效率对比。研究结果表明:该优化方法提供的图像复原算法复原效果好,与MATLAB效果图比较人眼观察不出差异;在计算速率上,提出的优化方法能够在19.6 ms内复原1帧128×128灰度模糊图像,计算速度与直接采用CUFFT函数库算法相比提高约1.8倍。  相似文献   

11.
数据量大且冗余度高是数字图像显著的特征,这对大批量图像快速实时加密提出了挑战。为了解决此问题,基于Lorenz混沌加密技术,设计了一种采用线程池与图形处理器(graphics processing unit,GPU)组合优化的批量图像加密算法。该算法通过线程池改进图像的读写,并进行图像镜像变换;利用Lorenz混沌系统生成加密序列,结合图像分块混沌序列进行加密;然后对批量图像数据进行打包,通过GPU进行大批量的异步计算;最后重组图像矩阵得到批量加密图像。实验测试表明,该算法能够有效抵御常见的攻击手段,经过性能优化后的批量数字图像加密算法,可以保证图像安全性;同时,在批量图像读取速率和加解密处理效率方面有显著的提高。  相似文献   

12.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

13.
一种非线性扩展混合共轭梯度算法的全局收敛性   总被引:1,自引:1,他引:0  
描述了非线性FR共轭梯度法、非线性PRP共轭梯度法、非线性DY共轭梯度法等求解大规模无约束优化问题的有效算法.研究了计算更为有效的适合求解无约束优化问题的一种非线性扩展混合共轭梯度算法;给出了在Wolfe型线搜索下的非线性扩展混合共轭梯度法,算法产生的方向为下降方向.在一般的条件下,给出了算法的全局收敛结果,且数值实验表明算法十分有效.  相似文献   

14.
在现有共轭梯度方法的基础上,提出一种新混合共轭梯度法来求解无约束最优化问题.该方法采用近似方法去逼近Hessen矩阵,克服了传统牛顿法求解Hessen矩阵中存在的计算量大等问题,并在强wolfe线搜索技术下给出该共轭梯度算法的全局收敛性证明.实验结果表明,与PRP(Polak-Ribiere-Polyak)方法和HYBRID(混合)方法相比较,该文提出的新混合共轭梯度算法的迭代时间少于前两者方法,说明该文方法可行、有效.  相似文献   

15.
用极大似然估计法和交替方向法估计Kriging模型参数, 提出一种基于有效集共轭梯度法的Kriging模型参数优化算法, 并在此基础上改进了高效全局优化算法. 结果表明, 利用改进的全局优化算法可解决高效全局优化算法的过早收敛问题.  相似文献   

16.
一类新的Wolfe线性搜索下的记忆梯度法   总被引:1,自引:0,他引:1  
提出一类新的求解无约束优化问题的记忆梯度法,在较弱条件下证明了算法具有全局收敛性和线性收敛速率。算法在每步迭代中利用当前和前面迭代点的信息产生下降方向,不需计算和存储矩阵,适于求解大规模优化问题。初步的数值试验表明算法比Wolfe搜索下的FR,PRP和HS共轭梯度法及最速下降法有效。  相似文献   

17.
为了使应用线程更合理地映射到众核处理器具体处理核上,提出一种利用不同线程内部数据局部性及不同线程间数据相关性的特点、结合具体硬件架构特征的线程分组映射方法。通过计算数据重用距离,分析应用程序线程内部数据局部性,用线程相关性矩阵度量不同线程间的数据相关性;根据应用程序数据相关性及众核处理器硬件架构特点,通过设计数据相关性子树生成算法,将应用线程分为能反映不同线程数据访问特点的逻辑组;在线程逻辑分组的基础上,通过线程到处理核的绑定实现线程到具体处理器不同处理核硬件线程的合理映射。实验结果表明:与传统映射方法相比,该线程分组映射方法在不产生额外运行时开销的基础上,计算性能平均提高了14%,能耗降低了12%。该方法可以根据应用程序不同线程之间的数据相关性,将不同线程合理映射到具体众核处理器不同处理核上,在不引入额外运行时开销的基础上,提升众核系统的计算效能。  相似文献   

18.
基于共轭梯度法迭代简单、计算高效的优势,提出一种修正三项PRP共轭梯度算法。该算法满足充分下降性,对非凸优化问题具有全局收敛性和R-线性收敛性。在无约束优化问题、马斯京根模型参数估计和图像复原问题的数值实验结果表明,该算法都具有更好性能。  相似文献   

19.
谱共轭梯度法含有两个方向调控参数,是一种结合共轭梯度法和谱梯度法的无约束优化方法。本文建立新的共轭参数和谱参数,提出无约束优化问题的两个谱共轭梯度法,这两个新方法在精确线搜索下等价于FR共轭梯度法。然后,证明了算法1在Wolfe线搜索下和算法2在Armijo线搜索下的全局收敛性,并给出了算法的数值实验结果,验证了算法的有效性。  相似文献   

20.
随着计算机技术的革新和生产生活中大规模无约束优化问题的涌出,为寻求高效快速的方法,本文构造新共轭梯度算法.将一种修正弱Wolfe-Powell线搜索称为MWWP线搜索,使其与具有良好的充分下降性的DPRP共轭梯度法相结合,证明了该算法在新型线搜索下的全局收敛性,并将该算法与传统共轭梯度法进行了数值实验对比,数值实验结果表明了新方法是有效可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号