期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

2.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

3.

基于异构平台的图像中值滤波的OpenCL加速算法

肖诗洋王镭杜莹肖汉《河北大学学报(自然科学版)》2024,(1):92-103

图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 相似文献

4.

基于OpenCL的最短路径图算法实现

《实验科学与技术》2017,(1)

当今生物医学影像涉及越来越多的成像数据,需要进行快速计算最短曲率值。最短路径算法在这个应用中发挥重要的作用,dijkstra算法就是用于计算源点到其他节点的最短路径的常见算法。过去普遍认为最短路径算法在CPU上的运行速率过低,很难用于交叉学科和曲率测量类型研究的曲率计算。OpenCL架构是基于异构平台的行业标准框架,能够利用GPU作为协处理器,进行通用计算。大脑皮层曲率是生物医学领域研究的热点,该文利用OpenCL在高性能计算领域的巨大优势来进行加速计算,实现了Dijkstra算法的并行编程。实验结果获得了4.73~9.69倍的加速比,表明了OpenCL确实具有很好的加速效果,且对最短路径算法有很好的改进。相似文献

5.

基于Spark的ISOMAP算法并行化

《中国科学技术大学学报》2016,(9)

为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理. 相似文献

6.

基于Fermi架构的超声图像自动增益补偿并行算法

何兴无张霞《科技导报(北京)》2012,30(31):61-65

在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。相似文献

7.

PDM:基于Hadoop的并行数据分析系统

段松青 吴斌于乐王柏《湖南大学学报(自然科学版)》2012,39(10):87-92

提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据. 相似文献

8.

交通信息网格中的最短出行路径并行算法

章昭辉闫春钢丁志军蒋昌俊《同济大学学报(自然科学版)》2006,34(12):1606-1611

根据城市路网的特点，提出了一种新的路网图的分割方法；在此基础上，提出两种网格最短路径并行算法GPSPA1和GPSPA2．这两种算法克服了传统并行标签算法只适合在共享内存的并行机器上使用的缺点，适合网格环境下使用．实验结果表明：分割器不能完全分割源点和目标点时，GPsPA2比GPSPA1效率高；完全分割时，两种并行算法的加速比大约都是3．GPSPA2应用于交通信息服务网格系统2．0版中．相似文献

9.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

10.

一种优化D算法最短路径实现方法的研究

于树良《科技信息》2012,(36):I0140-I0140

D算法（Dijkstra,狄杰斯特拉算法）是典型的单源最短路径算法,用于计算一个节点到其它所有节点的最短路径。从存储结构角度,提出一种优化D算法的最短路径方法,利用基于COMArcEngine技术加以实现。相似文献

11.

基于G4ICCS系统的数据挖掘并行算法

刘威路来君王洪肖曹延波《吉林大学学报(信息科学版)》2013,31(3):324-327

针对传统决策树SPRINT（Scalable Parallelizable Induction of Decision Trees）算法不能处理海量地学数据挖掘的问题, 设计实现了基于G⁴ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System）的决策树并行分类算法PSPRINT。该算法使用哈希表存储连续属性分割点两侧的数据记录, 为并行节点的分割提供依据, 在MapReduce架构下解决了海量地学数据挖掘问题。实验结果表明, 在模拟的云计算环境下, 决策树并行算法可以处理海量地学数据分类问题, 并获得较好的稳定性和较高的处理速度。相似文献

12.

一种矩阵相乘的并行算法实现与性能评测

苑野于永澔《哈尔滨商业大学学报(自然科学版)》2014,(5):604-607

用传统的串行算法进行矩阵相乘运算会受到矩阵规模、单机的CPU主频、内存大小和存储器空间等方面的限制.而使用并行算法是解决上述限制的最有效途径.为此,在集群计算环境下,使用SPMD计算模型和基于MPI消息传递技术设计实现了矩阵相乘的并行算法.实验表明,此并行算法在一定矩阵规模下具有较好的加速比和并行效率. 相似文献

13.

基于城市应急指挥系统的最优路径算法

丁杰吉国力刘法能《厦门大学学报(自然科学版)》2009,48(5)

城市应急指挥系统要求在事故发生时,计算出到出事地点的最佳路线的最短时间,其核心算法仍是最短路径算法.针对实际的城市道路网特点,对道路网络模型、道路拓扑结构和数据库结构进行构建.以优化的数据存储结构为切入点,在分析了经典的Dijkstra最短路径算法的计算速度瓶颈的基础上,提出了基于方向性的空间最优路径算法,使该算法具有更高的效率. 相似文献

14.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

15.

并行聚类分析算法

阎仲璞邵秀丽张峰《南开大学学报(自然科学版)》2008,41(4)

数据挖掘是用来发现数据库中隐含的各个数据之间的关系和特性,聚类分析是数据挖掘所要完成的工作之一.选取了三个并行聚类分析算法并研究了与之对应的并行算法,然后讨论了并行算法的性能,并得到了一些实验结果.最后提出了一个新的并行算法,相比较其它并行聚类算法,本文所提出的算法是最有效的. 相似文献

16.

多重链路网络中基于QPAS的并行算法

秦勇梁本来贾云富宋继光蔡昭权《南京理工大学学报(自然科学版)》2009,33(5)

提出一种基于最短路径的QoS度量并行算法(QPAS)的两级并行算法。将多重链路网络按连接规则划分为若干网络分区,利用QPAS算法并行计算出每个分区内的QoS路由,并将路由结果发送给相应的分区处理器,最终由分区处理器调用最短路径并行算法计算出分区间代价最小路径。最后研究了路由更新频度。实验结果表明,基于QPAS的两级并行算法的时间复杂度更低,适用于有限节点网络的路由寻优。相似文献

17.

蛋白质三级结构预测的并行化算法

杨瑶桑延超多丽君《科技咨询导报》2008,(18):11-11

在分析了使用PSO（粒子群算法）和GA（遗传算法）的协同优化算法对蛋白质三级结构进行预测的基础上,引入并行算法。进而提出并行算法的优势所在,并详细介绍了遗传算法的三种并行模型,最后给出改进后的并行改进算法模型。相似文献

18.

MPP上的并行松弛迭代算法

陈妹陈云霞殷新春周解《中国科学技术大学学报》2002,32(6):732-737

讨论了松驰迭代算法在大规模并行处理机（massively parallel processor，MPP）计算模型上的并行化，给出了在MPP上的并行算法。该算法将计算近似解向量各分量值的时间错开，从而使各个分量的迭代计算可并行进行。对算法性能进行的分析和在大规模并行处理机系统曙光2000中对算法进行的计算均表明：并行松驰迭代算法具有较好的收敛速度、较高的加速比和可扩放性。相似文献

19.

一个低代价最短路径树算法 总被引：2，自引：0，他引：2

周灵孙亚民《南京理工大学学报(自然科学版)》2006,30(3):332-335

为了对最短路径树SPT（Shortest Path Tree）进行代价优化，提出了路径驱动的思想，主要是生成SPT时通过路径节点共享的方式来优化其总体代价。基于这个思想进行搜索过程优化，设计了一个路径节点驱动的低代价最短路径树算法LCSPT（Low—cost Shortest Path Tree Algorithm），这个算法生成的组播树在保证最短路径的同时降低了整个树的总体代价。仿真实验表明：LCSPT算法不但能正确地构造最短路径树，而且其构造的SPT总体代价与其它同类算法相比得到了最大限度的优化。相似文献

20.

基于网络环境的分布式PGA的结构优化

付朝江《实验科学与技术》2009,7(6):36-39

并行计算是当今数值计算发展的新方向。该文在网络并行环境下探讨了并行遗传算法（PCA）进行结构优化设计及其算法的实现方法。利用4台PC机组成网络平台,进行了钢桁架结构优化设计的数值测试。计算结果表明,设计的并行算法在网络并行计算环境中具有较高的加速比和效率,同时验证了并行遗传算法用于结构优化是可行的和有效的。相似文献