期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙延维雷建军《华中师范大学学报(自然科学版)》2016,50(3):0

蒙特卡洛模拟法常用来进行期权定价,但此算法存在运算量过大的问题.利用图形处理器(GPU)超强计算能力实现美式期权定价,在GPU上,首先优化实现了均匀随机数生成器,然后利用Box-Muller随机数转换算法产生随机数,最后优化实现了最小二乘蒙特卡洛模拟法的美式期权模拟定价系统.测试结果表明,GPU实现的最小二乘蒙特卡洛美式期权定价对比CPU的实现加速比最高达到了16.1.利用GPU的编程技术以更小的硬件代价,更高的执行效率,更好地完成由CPU完成的传统任务,较好地解决了蒙特卡洛模拟法运算量过大的问题,充分挖掘了GPU的通用计算潜力. 相似文献

2.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献

3.

网格环境下期权定价BSDE模型的并行实现

刘辉彭滢龚斌代斌魏代政《华中科技大学学报(自然科学版)》2011,39(Z1):201-204

提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同编程在异构计算节点上的实现效率.通过监控计算节点上计算任务的负载状况,利用CNGrid所提供的计算服务,灵活地在异构计算节点上完成期权定价计算任务. 相似文献

4.

高性能计算中的亚式期权蒙特卡罗加速方法

姜广鑫徐承龙《同济大学学报(自然科学版)》2013,41(5):792-798

研究蒙特卡罗控制变量方法在CPU(central processing unit)集群和GPU(graphic processing unit)计算环境中的实现问题.以离散取样的随机波动率下的算术平均亚式期权为例,选取合适的控制变量,分别研究了在CPU集群和GPU计算中算法与硬件并行加速两者的运算效率,并讨论了模型参数的变化对计算结果的影响.数值试验表明采用算法与硬件加速相结合的方法可以极大提高计算效率、缩短运算时间. 相似文献

5.

基于CUDA的相干消色散算法实现与测试

刘东亮《科学技术与工程》2010,10(8)

针对NVIDIA GeForce8800GTX与Intel Core2Quad Q6600运算平台,比较和测试了在CUFFTlibrary(version1.1)和FFTW(MKL version10.2)下GPU与CPU的运行响应差异,得出在快速傅里叶变换运算中,GPU的运算性能较之CPU有10倍以上的优势,从而进一步对相干消色散算法进行了移植,引入CHIRP函数,并在CUDA平台中进行性能测试,最后给出GPU相干消色散系统的性能测试。相似文献

6.

基于流水线架构的卷积神经网络FPGA实现

崔江伟周勇胜张帆尹嫱项德良《北京化工大学学报(自然科学版)》2021,48(5):111-118

卷积神经网络（CNN）已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列（field programmable gate array,FPGA）能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。相似文献

7.

Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP

张宇张延松张兵陈红王珊《华东师范大学学报(自然科学版)》2014,(5)

当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效. 相似文献

8.

Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP（英文）

张宇张延松张兵陈红王珊《华东师范大学学报(自然科学版)》2014,(5):240-251

当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的CoOLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.CoOLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效. 相似文献

9.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞《重庆师范大学学报(自然科学版)》2013,30(3)

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤.由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节.该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度.数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果.对于3 121×936的图像数据能够达到1 558 fps的帧率,速度提高了大约664倍. 相似文献

10.

基于GPU的流动影响枝晶生长相场方法

朱昶胜贾金芳冯力肖荣振王永贤《兰州理工大学学报》2015,41(3)

将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果. 相似文献

11.

GPU下的二叉树定价模型

桂叶晨刘涛彭蓉文高进《华中科技大学学报(自然科学版)》2011,39(Z1):102-105

针对二叉树定价模型算法计算量大、耗时长的问题,利用CUDA架构对该模型进行了并行改造,在GPU上对该算法进行了加速测试与相应的性能分析.实验结果表明:在单个GTX295节点上,对于数据规模为16 K的期权,GPU相对于其4核Xeon E5520的加速比已达约200倍,GPU每s所能处理的期权数量达到了24 852个,符合实时商业引擎的要求.另外,通过衡量一些关键指标,考察了该算法在GPU上的扩展性及其计算精度对结果的影响. 相似文献

12.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

13.

基于CUDA的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,14(12)

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,本文提出了一种基于CUDA平台的卫星影像快速匀光并行处理方法,根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

14.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

15.

基于均匀驱动计算架构的卫星影像快速Mask匀光方法研究

常高王华斌李国元刘金刚《科学技术与工程》2014,(12):246-250

针对大数据量的卫星遥感影像进行匀光处理的过程计算量大,效率低的情况,提出了一种基于均匀驱动计算架构(compate unified device architecture,CUDA)平台的卫星影像快速匀光并行处理方法。根据现有算法结构上的特点,将处理过程中的主要运算部分交由GPU完成。实验通过对资源三号卫星所得影像做匀光处理,对比了GPU与多核CPU运行速度和效果,分析了该方案的加速性能和实用性。实验表明,在保持原处理质量的同时,该方法构建的并行处理模型有效地提高了原有匀光算法的处理速度。相似文献

16.

二维FFT在GPU上的并行实现

陈瑞童莹《南京工程学院学报(自然科学版)》2009,7(2):41-45

FFT算法是高度并行的分治算法,因此适合在GPU（Graphics Processing Unit,图形处理器）的CUDA（Compure Unified Device Architecture,计算统一设备体系结构）构架上实现．阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验．实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右．相似文献

17.

求解矩阵特征值的GPU实现 总被引：1，自引：0，他引：1

夏健明魏德敏《中山大学学报(自然科学版)》2008,47(Z2)

提出了求解矩阵特征值的GPU(图形处理器)实现方法,分别用基于GPU的幂法和QR法求解矩阵的最大特征值和所有特征值。基于GPU的计算与基于CPU的计算相比较,证实其计算精度较好,运算时间比基于CPU的运算时间快2.7~7.6倍。相似文献

18.

Fermi平台下的医学超声实时扫描转换并行算法

何兴无张霞
 《重庆师范大学学报(自然科学版)》2013,(3):94-98

在超声成像系统中扫描转换是让超声图像较好地在屏幕上进行显示所必须的处理步骤。由于这一处理步骤中存在运算复杂的插值运算,特别是在横向使用的三次方插值,使其成为临床实时成像系统中提供帧速率的一大性能提升瓶颈,为此本文研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(Graphics processing unit)的并行处理算法,该算法基于GPU并行处理平台,主要包括初始化阶段、图像插值以及图像显示这3个处理环节。该算法不仅保持了与现有计算平台系统的计算精度,而且显著地提高了这一处理环节的计算速度。数据测试结果显示,采用Fermi架构的GPU处理在得到与基于CPU的实现完全一致的扫描转换效果的同时,取得了较大的加速效果。对于3 121×936的图像数据能够达到1 558fps的帧率,速度提高了大约664倍。相似文献

19.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

20.

基于GPU的粒子滤波并行算法 总被引：1，自引：1，他引：0

孙伟平向杰陈加忠余胜生《华中科技大学学报(自然科学版)》2011,(5):63-66

针对粒子滤波跟踪算法计算量较大,需要在跟踪准确性与计算效率之间做出妥协的问题,分析了粒子滤波算法的并行性,提出了基于图像处理单元(GPU)平台的粒子滤波并行算法.将传统粒子滤波算法与GPU有效结合起来,充分利用GPU并行运算的性能,加快粒子滤波算法的计算速度.对所提出算法的计算性能与普通串行算法进行了对比,实验结果表明该算法在不降低跟踪准确性的同时,平均每帧处理时间显著减少. 相似文献