首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
用传统的串行算法进行矩阵相乘运算会受到矩阵规模、单机的CPU主频、内存大小和存储器空间等方面的限制.而使用并行算法是解决上述限制的最有效途径.为此,在集群计算环境下,使用SPMD计算模型和基于MPI消息传递技术设计实现了矩阵相乘的并行算法.实验表明,此并行算法在一定矩阵规模下具有较好的加速比和并行效率.  相似文献   

2.
并行计算机系统下的矩阵乘法   总被引:1,自引:0,他引:1  
在过程控制、图像处理等应用领域中需要用到大量的矩阵乘法操作,并且矩阵乘法计算性能是系统性能的关键因素。本文根据矩阵相乘的特点,提出了带状划分的矩阵相乘的并行算法。同时着重分析和推导了当并行机的处理器个数小于和远小于矩阵规模的情况下实现快速的矩阵乘法。  相似文献   

3.
介绍了在TMS320C80上实现并行算法需要解决的两个问题:存储器访问冲突、数据“双缓冲”传送,然后讨论了在其上实现矩阵相乘的并行算法.  相似文献   

4.
对称稠密矩阵特征问题的求解通常转化为三对角矩阵特征问题的求解,基于对称三对角矩阵特征求解的分而治之方法,提出了一种基于消息传递接口(message passing interface,MPI)+Cilk多任务并行模型的混合求解算法,采用进程间数据并行和进程内多线程任务并行的方法,实现了对分而治之算法中分治阶段和合并阶段的多任务划分和动态调度。进程内利用Cilk任务执行的有向无环图模型,解决了线程级并行的数据依赖和饥饿等待等问题,提高了程序的并行性;进程间通过粗粒度计算任务的划分,优化了MPI部分的数据通信流程和负载均衡问题。数值实验表明,混合并行算法在计算性能和可扩展性方面都要优于纯MPI并行算法。  相似文献   

5.
基于共享内存的高效OpenMP并行多层快速多极子算法   总被引:2,自引:1,他引:1  
提出并实现了一种基于共享内存并行平台的OpenMP并行多层快速多极子算法.结合OpenMP并行算法开发的要点和多层快速多极子算法数据分布的特性,对多层快速多极子的填充矩阵模块、矩阵向量相乘中的远相互作用部分进行了OpenMP并行化设计.在分析调度方式和循环次序对计算效率的影响的基础上,提出了一种高效的OpenMP并行多层快速多极子方案.数值实验表明,并行算法与串行精度一致,OpenMP并行算法具有较好的并行效率.  相似文献   

6.
径向基神经网络经常用于回归预测,但是高维的核函数矩阵运算需要花费巨大计算资源.为了缩短计算时间,设计了并行算法用于计算径向基网络核函数矩阵,并将它用于转炉提钒预测模型,在以MPI构建的工作站机群上执行该算法,利用实际数据验证了该算法的加速性和准确性.  相似文献   

7.
大地电磁测深法属于天然场源的电磁勘探方法,是以岩石的电性差异为基础和前提的勘探方法。所采用的大地电磁二维反演方法为共轭梯度法,该方法避免了求解雅可比矩阵,效率较高,但是在将模型剖分较细时,多频率进行计算时效率有待提高。基于大地电磁频率依次独立处理数据的特点,采用了MPI的并行算法来提高效率,为了使得计算效率更高,在MPI的基础上增加了CUDA并行运算方法,用多个进程同时来计算各频率数据,在求解方程的过程中采用CUDA进行加速,得到计算结果。通过对正演和反演图的比较,验证了程序的正确性。对并行算法的效率进行了统计,进程数为2~4时,加速比能达到2.15~3.09,比单一的MPI并行算法的加速比要高,验证了程序的有效性。  相似文献   

8.
为了更快更有效地提高大规模电力系统潮流计算的速度,引入并行处理技术,文中提出了一种基于MPI的电力系统潮流P-Q分解法的并行算法,将潮流计算问题分解为多个子任务在基于MPI消息传递模式的多处理机中同时进行计算.运用该并行算法,针对不同规模的网络进行潮流计算,结果表明,该并行算法能有效地提高电力系统计算的速度,具有广阔的应用前景.  相似文献   

9.
线性阵列上的奇偶归拆排序并行算法的MPI实现   总被引:1,自引:0,他引:1  
主要介绍了线性阵列上的奇偶归拆排序的并行算法思想,给出了算法基于网络工作站的MPI实现,并 对算法进行了讨论和分析.  相似文献   

10.
通过分析影响算法的并行效率的主要因素,根据分而治之策略中的分块思想提出了一种求解三对角方程组的并行追赶算法。然后在机群系统中,MPI环境下实现了该并行算法,对并行算法的加速比和效率与原串行算法进行了比较,结果表明此算法有较高的计算效率。  相似文献   

11.
描述了DNS、Cannon、Fox、Systolic矩阵乘并行算法的原理,并对其时间复杂度进行了理论分析。通过对并行算法的各项性能参数的对比分析,得到的结论是DNS算法的时间复杂度最好,但加速比、效率和成本不是最优的。Cannon算法和Fox算法的算法思想类似,但是Cannon算法比Fox算法在数据播送上的花费少,因此整体性能较好。Systolic算法是基于流水线技术的并行矩阵乘算法,有较好的综合性能。  相似文献   

12.
The performance of existing diffusion-based algorithms in recommender systems is still limited by the processing ability of a single computer .In order to conduct the diffusion computation on large data sets, a parallel implementation of the classic diffusion method on the MapReduce framework is proposed.At first, the diffusion computation is transformed from a summation format to a cascade matrix multiplication format , and then , a parallel matrix multiplication algorithm based on dynamic vector is proposed to reduce the CPU and I/O cost on the MapReduce framework , which can also be applied to other parallel matrix multiplication scenarios .Then, block partitioning is used to further improve the performance , while the order of matrix multiplication is also taken into consideration . Experiments on different kinds of data sets have verified the efficiency of the proposed method .  相似文献   

13.
目的设计并实现一种基于数据划分的矩阵乘法的并行算法,将划分的数据交给多个线程同时执行,充分挖掘计算机的性能。方法根据OpenMP并行编程的基本风格,并在Visual Studio2005上搭建能够实现并行编程的环境平台。结果并行算法所花费的时间较非并行算法短。结论通过与非并行矩阵乘法性能进行比较,验证该算法可以有效地利用多核处理器的优势。  相似文献   

14.
DSP具有能效比高的特点,可以用于通用高性能计算.矩阵乘是许多科学与计算问题的核心算法,在DSP上取得高性能具有重要的理论和现实意义.面向通用DSP,提出了矩阵乘并行算法,建立了矩阵乘峰值性能模型,根据性能模型,构建了矩阵乘性能达Tflops级DSP体系结构参数配置,对通用DSP的设计参数给出了明确的性能指标要求,包括乘加流水线数量、寄存器数目、带宽和延迟.  相似文献   

15.
为了充分利用计算机资源,通过对于高阶矩阵乘法的串行与并行运算结果的比较得出并行算法的明显优势,提出在大规模的工程与数学运算中应充分利用多处理机并行执行的特点来提高机器的性能与程序的运行效率的结论。  相似文献   

16.
提出了一种基于存储的矩阵乘积优化算法.该算法转置矩阵,提高cache命中率,从而降低矩阵乘积时间. 实验结果表明此算法是行之有效的.  相似文献   

17.
多处理机中矩阵乘法的算法研究   总被引:2,自引:0,他引:2  
从矩阵乘法的顺序代码、并行代码中分析了其通信时间开销和计算性时间复杂性,提出了使用直接法、子矩阵和递归算法;为提高效率,还提出了将通信安排在计算过程中间进行的算法,使得计算获得最大的重合。解决了多处理机系统中因处理器间的通信速度相对滞后所产生的负面影响问题,给数值计算带来很大的方便。  相似文献   

18.
提出一种ELMMSE信道估计算法的简化计算方法。为简化ELMMSE信道估计算法的复杂度,首先利用信道自相关矩阵的固有特性,简化了信道自相关矩阵求解;然后利用算法中逆矩阵满足共轭对称Toeplitz特性,简化了矩阵求逆。结果表明:当OFDM子载波数为128时,提出的ELMMSE算法简化计算方法的复乘、复加次数分别减小为ELMMSE算法的5.84%和5.79%。其中,信道自相关矩阵求解的复乘、复加次数分别减少了33.14%和16.64%;矩阵求逆的复乘、复加次数均由原来的o(N3)变为o(N2)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号