期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄艳张小军《河南大学学报(自然科学版)》2015,45(4)

传统数据预取技术在处理结构复杂的非规则数据应用程序时,其有效性明显下降.为解决该问题,基于程序运行时的数据访问阶段性特征,提出一种面向非规则数据的阶段预取策略,研究应用程序的访存规律和预取调度机制.该策略通过在线剖析应用程序的访存行为,识别出数据访问性能指标表现稳定的数据访问阶段和具有特定访存行为特征的预取阶段,实现在数据访问阶段内依据预取阶段的访存规律动态调整预取操作.实验结果表明,与传统的基于访存流模型的数据预取技术相比较,阶段预取策略能够减少无用预取,更加有效地改善非规则数据应用程序性能. 相似文献

2.

面向Cell宽带引擎架构的异构多核访存技术 总被引：4，自引：1，他引：3

冯国富董小社丁彦飞王旭昊《西安交通大学学报》2009,43(2)

针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批量访存计算中的片内访存开销,利用支持粗粒度访问的软件管理cache及数据预取来降低按需访存的片外访存开销;以访存接口库的方式来改善软件的可编程性.实验结果表明,所提技术的访存接口库在批量访存方式下的性能比ALF和CellSs提高了30%～50%,按需访存中软件管理cache性能比CBE软件开发工具包提高了20%～30%,4路数据预取访存比单路缓存的性能提高约50%. 相似文献

3.

一种基于GPU的二维离散多分辨率小波变换加速方法

刘磊张子佳刘雷张睿《吉林大学学报(理学版)》2015,53(2):267-272

针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求, 提出一种基于GPU的并行小波变换算法, 并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术, 利用多Kernel并行提高多种分辨率下小波变换的性能. 实验结果表明, 与CPU串并行版本相比, GPU并行优化算
法在高分辨率变换情况下, 加速比最高可达30~60倍, 可满足对变换实时性的要求. 相似文献

4.

基于GPU的高光谱遥感岩矿信息快速提取方法 总被引：2，自引：0，他引：2

柳家福吴泽彬刘天石韦志辉王启聪《中国科技论文在线》2014,(10):1137-1143

提出了基于图形处理单元（graphics processing unit,GPU）的高光谱岩矿信息快速提取方法,利用GPU的并行计算优势对高光谱岩矿信息提取的核心步骤进行了并行优化设计。针对高光谱岩矿信息提取的算法特点,提出了相应的性能优化策略,包括优化算法流程、提高访存效率和减少数据访问冲突。实验结果表明,并行设计模型与优化方法能够快速有效地进行岩矿信息提取,并且最大加速比达到了81倍。相似文献

5.

面向媒体处理可重构系统中数据缓存结构和缓存管理策略优化

刘波肖建曹鹏杨苗苗《东南大学学报(自然科学版)》2014,(6):1149-1154

研究并提出了一种基于二维访问机制的数据缓存结构(2D Cache)及其更新管理策略.该缓存结构可以在控制硬件存储开销的同时,有效提升可重构系统的数据访存效率.实验结果表明,仅需4 KB的数据缓存开销,可重构系统的访存性能提升了29.16%~35.65%,并且对于不同标准的媒体处理算法都能获得较好的优化效果,具有很好的适应性.芯片实测结果表明,采用所述数据缓存设计方案的可重构系统可以在200 MHz下满足1080p@30fps的实时解码需求,与国际同类架构相比,性能提高了1.8倍以上. 相似文献

6.

基于多GPU的三维Kirchhoff积分法体偏移

刘伟峰赵改善孔祥宁蔡杰雄张兵《华中科技大学学报(自然科学版)》2011,39(Z1):110-114

提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差. 相似文献

7.

面向服务架构的数据服务在数据访问中的应用

蔡海尼何盼文俊浩桑春艳《重庆大学学报(自然科学版)》2009,32(10):1208-1213

虽然面向服务架构(SOA)具有跨平台、松耦合等特性,但其并不支持异构数据源直接访问及处理.为了在数据访问中减少对应用程序的依赖,采用数据服务初步实现了面向服务架构的数据访问机制.在分析传统异构数据访问方法优缺点的基础上,针对SOA中Web服务不能直接访问数据源的问题,探讨了面向服务架构的数据服务和基于数据服务的访问方式,并对基于SOA的数据服务平台进行了研究.使用微软的ADO.NET Data Service实现了数据服务,通过实例验证了数据服务不仅能够直接访问数据源,并且能通过标准的Web服务接口集成到SOA中.与其他数据访问方式的对比分析结果表明,数据服务不依赖应用程序即可对异构数据源进行统一访问. 相似文献

8.

处理器片上缓存内及时局部性环境分析

胡九川范东睿程建聪严龙彭燕叶笑春李灵枝钟海斌《北京交通大学学报(自然科学版)》2021,45(5):116-123

为提高处理器内核访存效率、命中率和缩短访存延迟,将具有时间和空间关联关系的数据汇集在处理器片上缓存内,数据便具有了有利于处理器内核访存的及时局部性.本文分析了营造及时局部性环境的合理性和及时局部环境因数据迁移而产生的变化规律,为进一步改造片上缓存结构和片上数据迁移提供新的启示. 相似文献

9.

基于GPU的隐式不可压缩SPH流体模拟

《河南师范大学学报(自然科学版)》2015,(5):159-164

提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比. 相似文献

10.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

11.

基于GPU的MIMO系统球形解码器设计

陈慕羿《科技资讯》2011,(18):13-13

图形处理单元(GPU)可作为低成本并行可编程协处理器,提供高的计算吞吐量,非常适于大规模系统设计和仿真。为充分利用了GPU的并行处理能力,以加速MIMO无线通信系统的仿真,针对平坦衰落信道,设计了用于MIMO无线通信系统的固定复杂度球形解码器,并根据GPU的架构与存储特点,对实现进行了优化,减小了数据存取延迟和访问冲突。仿真结果表明,球形解码速度可提高近10倍。相似文献

12.

基于八叉树编码的CUDA光线投射算法 总被引：2，自引：0，他引：2

康健超康宝生冯筠王国栋赵建东唐斌《西北大学学报(自然科学版)》2012,(1):36-41

目的针对传统的GPU光线投射算法绘制效果差,绘制效率低的问题,在CUDA架构上对光线投射算法进行优化和加速。方法首先采用八叉树对体数据进行编码,有效地剔除体数据中对重建图像无贡献的部分;其次,将体数据绑定到三维纹理上,根据体数据大小分配线程,每条光线与体数据求交时采用并行计算;最后,在CUDA内核中实现光线投射算法。结果仿真实验结果表明文中算法可以将传统GPU光线投射算法的绘制速度提高7～15倍,并增强算法的绘制效果。结论算法对传统的GPU光线投射算法的绘制速度和效果都有提高。相似文献

13.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

14.

基于CPU-GPU异质架构的SAR实时成像加速

宋明聪《科学技术与工程》2013,13(16)

对于大规模SAR回波数据,单纯依靠CPU实现实时成像处理存在较大挑战。近年来出现的GPU图像处理单元为SAR成像处理提供了一个理想的处理平台。本文结合GPU和CPU的特点,利用基于CPU-GPU的异构协同处理平台来加速SAR成像算法。同时,为了充分发挥该异质架构的性能,文中提出了一种改进的基于子孔径架构的成像算法,并在此架构上对超大规模SAR回波数据进行了成像处理,取得良好的成像效果和加速比。相似文献

15.

基于GPU的并行拟牛顿神经网络训练算法设计

刘强李佳峻《河海大学学报(自然科学版)》2018,46(5):458-463

针对人工神经网络训练需要极强的计算能力和高效的最优解搜寻方法的问题,提出基于GPU的BFGS拟牛顿神经网络训练算法的并行实现。该并行实现将BFGS算法划分为不同的功能模块,针对不同模块特点采用混合的数据并行模式,充分利用GPU的处理和存储资源,取得较好的加速效果。试验结果显示:在复杂的神经网络结构下,基于GPU的并行神经网络的训练速度相比于基于CPU的实现方法最高提升了80倍;在微波器件的建模测试中,基于GPU的并行神经网络的速度相比于Neuro Modeler软件提升了430倍,训练误差在1%左右。相似文献

16.

基于CPU-GPU异质架构的子孔径算法实现

宋明聪赵凤军刘亚波《科学技术与工程》2013,(16):4703-4707

对于大规模遥感数据处理,单纯依靠CPU实现实时成像处理存在较大挑战。近年来出现的GPU图像处理单元为大规模数据处理提供了一个理想的处理平台。结合GPU和CPU的特点,利用基于CPU-GPU的异构协同处理平台来加速图像处理。同时,为了充分发挥该异质架构的性能,提出了一种改进的基于子孔径架构的成像算法,并在此架构上对超大规模遥感数据进行了成像处理,取得良好的成像效果和加速比。相似文献

17.

基于CUDA的格子Boltzmann数值模拟加速实现

覃章荣张超英丘滨李圆圆莫刘刘《广西师范大学学报(自然科学版)》2012,30(4)

针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行IBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS 450 GPU和Intel Core i5-760 4核CPU进行计算.结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径. 相似文献

18.

基于GPU实现允许k-差别近似串匹配并行算法

张锦雄梁正友蔡德霞韦兴柳《广西大学学报(自然科学版)》2011,36(2):285-291

为了在GPU上实现允许k-差别近似串匹配并行算法,并进一步提高在GPU上的算法性能,在综合考虑GPU的存储层次前提下,采取了多种访存优化措施,并提出了避免bank冲突的解决方案.测试结果表明,所用优化措施及方案使算法性能明显提高. 相似文献

19.

应用动态生成树的GPU显存数据复用优化

李亮王恩东朱正东颜康张保董小社《西安交通大学学报》2013,47(10)

针对手工优化GPU(Graphic Processing Unit)显存级数据复用过程复杂和编译时优化数据复用开销过大的问题,提出了一种基于动态生成树在运行时进行数据复用的优化方法,可为程序员提供一种透明且高效简单的优化方式.该方法将已经执行的GPU计算任务的数据访问抽象为生成树的叶子节点,利用动态生成树管理GPU数据访问信息,实现了运行时GPU显存级数据的复用优化,并通过运行时对生成树的搜索和维护,动态地发掘和优化GPU显存级数据复用,因此,在编程时不需要进行复杂且困难的数据复用分析,直接调用文中提出的运行时库就能有效减少程序执行过程中CPU内存和GPU显存之间的冗余数据传输次数,从而提升应用的运行性能.实验结果表明,使用文中提出的优化方法可有效消除未进行数据复用优化的CPU-GPU应用程序中的冗余数据传输,最大加速比达原始执行的3～10倍,额外开销不到优化后程序总执行时间的5％. 相似文献

20.

阵列处理器分布式存储的簇内全访问结构设计

蒋林刘鹏山蕊刘阳《西安科技大学学报》2018,(4)

采用分布式存储结构来解决阵列处理器片内访问延迟等"存储墙"问题已经成为研究主流。针对阵列处理器中分布式存储簇内互连问题,设计了一种电路结构简单、使用效率高和延迟低的簇内全访问电路结构,实现了簇内16个处理单元对存储单元的并行访问。实验结果表明,在无冲突情况下,最高频率达223 MHz,访问峰值带宽可达7.42 GB/S.测试结果表明,相比于行列交叉互连结构,全访问结构具有更小的访问延迟。通过对256×256和512×512边缘检测canny算法在该结构上进行并行化实现和性能比较发现,相比于CPU+GPU结构的处理时间,加速比分别提升了2.84倍和2.91倍。相似文献