期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《陕西理工学院学报(自然科学版)》2016,(1):44-49

为了提高地震资料数据处理的计算效率与成像精度,对于逆时偏移算法,采用一阶速度-应力波动方程,使用交错网络高阶有限差分算法进行求解。利用随机边界条件和PML边界条件进行地震波场正向延拓,既减少波场存储量,又能保证波场数据准确性,同时,使用CPU/GPU协同并行计算技术来提高运算效率。实验结果表明,CPU/GPU协同并行加速计算效果明显,叠前逆时偏移算法可对大地层倾角和偏移孔径清晰成像,能够对复杂构造地质体精确成像。相似文献

2.

GPU叠前时间偏移处理在麦捷煤矿的应用

李忠《科技信息》2012,(29):411-412

在构造复杂、速度横向变化不大地区,叠前时间偏移处理已成为改善成像效果的一种有效手段。GPU／CPU协同并行地震资料处理系统．它集GPU硬件的多处理器优势及先进的地震处理算法于一体。GPU叠前时间偏移处理包含的模块有GETOFFSETGROUPPARAM、SEND、CACULATION等。在模块参数中选取偏移网格、最佳偏移孔径、拉伸算子、反假频算子、倾角等。对比GPU叠前时间偏移与叠后时间偏移效果可见．GPU叠前时间偏移比叠后时间偏移具有较高的信噪比和分辨率,成像效果明显、陷落点反映清晰,解释的陷落柱边界准确．相似文献

3.

Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP

张宇张延松张兵陈红王珊《华东师范大学学报(自然科学版)》2014,(5)

当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效. 相似文献

4.

Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP（英文）

张宇张延松张兵陈红王珊《华东师范大学学报(自然科学版)》2014,(5):240-251

当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的CoOLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.CoOLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效. 相似文献

5.

基于多GPU加速的各向异性弹性波正演模拟

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,18(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块GPU并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为2563的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

6.

叠前时间偏移处理技术在煤田采区地震勘探中的应用

杜宏《科技信息》2011,(35):192-193

随着计算机技术的迅猛发展,尤其是高性能PC机群的出现,叠前时间偏移处理技术作为常规偏移成像处理手段得到广泛应用,成为改善构造复杂地区地震资料成像效果的一种有效处理手段。我院在2005年引进了具有64个CPU的PC-CLUSTER计算机系统,使用CGG叠前时间偏移技术(KIRCHHOFF积分法)。其优点是速度分析快捷,运算效率高,适应能力强。通过最近几年对煤田实际资料处理,表明叠前时间偏移处理技术可明显提高地震资料的成像精度,显示出其在构造复杂区优越性,较好地解决了实际问题。相似文献

7.

基于多图形处理单元加速的各向异性弹性波正演模拟 总被引：1，自引：0，他引：1

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块图形处理单元(GPU)并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为256~3的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

8.

基于GPU的数字信号处理中相关性计算的研究 总被引：1，自引：0，他引：1

索东高建瓴王恒《贵州大学学报(自然科学版)》2014,31(6):89-93

现代信号处理和通信系统对信号的处理,正变得越来越复杂并且计算也越来越密集,如何提高这些领域中信号处理的运算速度和运算精度已经成为当今一个重要的研究方向,GPU由于其特殊的结构,使其非常适合用于加速数据运算仿真和图形图像分析.本文提出一种基于GPU的信号相关性并行计算的方法,通过实验验证得出基于GPU的数字信号相关性的并行处理方法明显优于基于CPU下的处理方法,实验结果最高加速比达到了14.5倍,现代GPU技术的发展给通信信号处理领域带来新的途径. 相似文献

9.

基于CPU_MIC_GPU异构架构的Roberts算法优化探究

洪向共陈威熊镝周辉林《科学技术与工程》2016,16(36)

在高分辨率图像日益普及的情况下,Roberts边缘检测的处理速度急需进一步提高。在CPU表现不尽如人意的情况下,基于CPU/GPU和CPU/MIC的高度并行运算的研究愈加深入。在分析Roberts算法特点的基础上,将能并行的部分移植到GPU和MIC上进行。完成基于CPU/GPU和CPU/MIC的异构架构上的Roberts算法实现,并针对CPU/MIC上将程序进行向量化优化。实验结果表明,在相同单精度浮点运算能力下,GPU处理低分辨率图像的速度更快、加速比更高,但处理高分辨率图像时MIC的加速比最高为23.52,高于GPU的21.43。相似文献

10.

星载SAR图像几何校正并行算法研究

范明虎田军锋赵建辉左宪禹葛强《河南大学学报(自然科学版)》2019,49(5):553-558

并行计算是遥感图像快速处理的基本方法,而并行算法则是实现这种方法的关键之一.针对星载SAR图像几何校正中单幅图像的快速处理问题,首先分析了一种串行校正算法的可并行特征,随后分别设计了一种面向多CPU/核和一种面向GPU的全局并行校正算法,并利用2幅星载SAR图像测试了多种数据粒度下这2种算法的加速效能.实验结果表明,这2种并行算法可以大幅提高星载SAR图像的几何校正速度;CPU并行算法的性能主要与CPU/核心数目有关,而GPU并行算法则主要与数据粒度有关;后者具有很高的加速比,是几何校正的高效方法. 相似文献

11.

GPU异构平台下的深度包检测技术

张首斌林胜王劲松《天津理工大学学报》2013,29(1):41-44

深度包检测(Deep Pacekt Inspcetion,DPI)是网络入侵检测与防御系统(Network Intruison Detce tion and Prevention System,NIDS/NIPS)中的关键技术,如何快速而又准确的识别有威胁的网络安全事件成为近年来的研究热点,本文提出了一种基于CPU+GPU异构平台下的深度包检测系统,充分利用GPU的的高并行计算能力和高存储器带宽,将其作为协处理器配合CPU来实现高密集度的匹配计算,从而实现了检测技术性能的提高. 相似文献

12.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

13.

基于GPU的弹性图像配准方法 总被引：2，自引：0，他引：2

张加万杨甲东孙济洲张红颖《天津大学学报(自然科学与工程技术版)》2008,41(8):946-950

通常的弹性配准技术因其计算强度大,消耗时间长,难以满足实时应用的要求．新一代图形处理器（GPU）以其用户友好的可编程性和出色的并行计算能力,为解决该问题提供了新的途径．根据GPU的自身特点,以薄板样奈插值作为变换模型,构建了弹性配准计算平台．对二维单模态和多模态的两组图像进行实验,结果表明,相比于CPU,利用GPU可以更为迅速地获得变换参数,对于大尺寸、高分辨率或者多局部形变的图像,GPU的处理速度超出CPU 1个数量级以上．相似文献

14.

基于CUDA的格子Boltzmann数值模拟加速实现

覃章荣张超英丘滨李圆圆莫刘刘《广西师范大学学报(自然科学版)》2012,30(4)

针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行IBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS 450 GPU和Intel Core i5-760 4核CPU进行计算.结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径. 相似文献

15.

基于Fermi架构的超声图像自动增益补偿并行算法

何兴无张霞《科技导报(北京)》2012,30(31):61-65

在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。相似文献

16.

基于GPU的近场动力学模拟的并行化方法

《上海交通大学学报》2016,(9)

针对近场动力学(PD)模型计算量庞大、计算效率低的问题,研究了基于GPU的PD建模过程的并行化方法.通过将前处理及求解过程中各物质点的计算映射到GPU的单个线程,实现模型的多线程高效并行计算.计算程序在Microsoft Visual Studio 2010集合CUDA 4.0工具包的开发环境下执行,采用CUDA C进行编写.对复合材料层压板的2种PD模型(键型PD模型和态型PD模型)的计算表明,采用GPU并行运算的模型模拟结果与试验结果吻合良好,并且相比于CPU串行计算,GPU并行计算获得了2.6~10.3倍的加速比,降低了PD模型的计算代价. 相似文献

17.

基于GPU的K-means并行算法研究与实现

原建伟王坤李爱国《陕西理工学院学报(自然科学版)》2012,28(5):44-48

分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性.研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高. 相似文献

18.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞
 《重庆师范大学学报(自然科学版)》2013,(3):94-98

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤。由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节。该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度。数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果。对于3 121×936的图像数据能够达到1 558fps的帧率,速度提高了大约664倍。相似文献

19.

基于DEM和GPU加速的颗粒运动仿真方法研究

付帅旗黄鹏丁逸飞《合肥工业大学学报(自然科学版)》2019,42(12)

采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(graphics processing unit, GPU)和统一计算设备架构(compute unified device architecture, CUDA)的并行计算方法;以球磨机的介质运动仿真为例,利用DEM方法结合CUDA并行计算模型,充分利用GPU众核多线程的计算优势,同时将颗粒属性信息存入GPU的常量存储器,减少信息读取的时滞,将筒体和衬板视为圆柱面和平面,简化了筒体与颗粒的接触判断,实现每个线程处理1个颗粒的相关计算,大幅提高计算速度;对颗粒堆积、筒体内2种尺寸颗粒运动进行仿真,并与基于CPU并行计算的结果进行对比。研究结果表明:在同等价格的硬件条件下,该文的方法可以实现10倍以上的加速比;对于含有复杂几何模型的仿真,如多尺寸颗粒和带衬板筒体的仿真,加速比会减少,但仍然可以实现数倍的加速。相似文献

20.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞《重庆师范大学学报(自然科学版)》2013,30(3)

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤.由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节.该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度.数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果.对于3 121×936的图像数据能够达到1 558 fps的帧率,速度提高了大约664倍. 相似文献