期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

覃章荣张超英丘滨李圆圆莫刘刘《广西师范大学学报(自然科学版)》2012,30(4)

针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行IBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS 450 GPU和Intel Core i5-760 4核CPU进行计算.结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径. 相似文献

2.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

3.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

4.

最小二乘蒙特卡洛美式期权定价的GPU实现

孙延维雷建军《华中师范大学学报(自然科学版)》2016,50(3):0

蒙特卡洛模拟法常用来进行期权定价,但此算法存在运算量过大的问题.利用图形处理器(GPU)超强计算能力实现美式期权定价,在GPU上,首先优化实现了均匀随机数生成器,然后利用Box-Muller随机数转换算法产生随机数,最后优化实现了最小二乘蒙特卡洛模拟法的美式期权模拟定价系统.测试结果表明,GPU实现的最小二乘蒙特卡洛美式期权定价对比CPU的实现加速比最高达到了16.1.利用GPU的编程技术以更小的硬件代价,更高的执行效率,更好地完成由CPU完成的传统任务,较好地解决了蒙特卡洛模拟法运算量过大的问题,充分挖掘了GPU的通用计算潜力. 相似文献

5.

基于GPU实现允许k-差别近似串匹配并行算法

张锦雄梁正友蔡德霞韦兴柳《广西大学学报(自然科学版)》2011,36(2):285-291

为了在GPU上实现允许k-差别近似串匹配并行算法,并进一步提高在GPU上的算法性能,在综合考虑GPU的存储层次前提下,采取了多种访存优化措施,并提出了避免bank冲突的解决方案.测试结果表明,所用优化措施及方案使算法性能明显提高. 相似文献

6.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献

7.

基于多GPU的三维Kirchhoff积分法体偏移

刘伟峰赵改善孔祥宁蔡杰雄张兵《华中科技大学学报(自然科学版)》2011,39(Z1):110-114

提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差. 相似文献

8.

使用GPU编程的工业CT断层图像三维可视化技术

胡剑王明泉侯慧琳刘成明郭永亮《应用科技》2011,38(5):61-65

在具有可编程管线的图形处理器（GPU）上重新实现了传统的光线投射算法,将耗时的三线性插值和采样过程放在GPU上进行,以提高绘制速度.首先将体数据映射为三维纹理并将其载入到显存,接着通过对顶点着色程序和像素着色程序的编写将光线进入点、离开点的计算以及图像的合成运算移入GPU中,最后根据不同的采样点颜色混合公式实现不同的绘制效果.本算法通过只绘制一个代理面,避免了使用固定管线的混合操作,从而可通过自定义的混合算法来实现各种复杂的绘制效果.结论：与传统的光线投射算法相比,文中算法可快速重建出质量较高的图像,使实时绘制工业CT断层图像成为了可能. 相似文献

9.

GPU下的二叉树定价模型

桂叶晨刘涛彭蓉文高进《华中科技大学学报(自然科学版)》2011,39(Z1):102-105

针对二叉树定价模型算法计算量大、耗时长的问题,利用CUDA架构对该模型进行了并行改造,在GPU上对该算法进行了加速测试与相应的性能分析.实验结果表明:在单个GTX295节点上,对于数据规模为16 K的期权,GPU相对于其4核Xeon E5520的加速比已达约200倍,GPU每s所能处理的期权数量达到了24 852个,符合实时商业引擎的要求.另外,通过衡量一些关键指标,考察了该算法在GPU上的扩展性及其计算精度对结果的影响. 相似文献

10.

粒子滤波目标跟踪研究

《内蒙古师范大学学报(自然科学版)》2017,(5)

结合人工蜂群算法和粒子滤波算法,提出了基于GPU人工蜂群算法的粒子滤波方法.利用GPU多核并行计算能力和人工蜂群算法中人工蜂行为的独立性,将粒子分布作为人工蜂群算法中的食物源,通过提取粒子位置信息在GPU工作单元上实现粒子滤波.人工蜂迭代计算适应度,改善了粒子滤波中粒子贫化现象,GPU上的多核并行化计算避免了适应度陷入局部最优解.在多个具有挑战性的视频上与多种已有算法的对比实验表明,提出的粒子滤波方法可以适应光照变化、尺度变化、室内外运动模糊以及背景低对比度等问题. 相似文献

11.

GPU上具有复杂光照烟雾动画的绘制

刘淑芬金钊《吉林大学学报(理学版)》2011,49(4):713-716

采用Navier Stokes方程作为烟雾的物理模型方程, 基于图形处理器(GPU)实现了具有复杂光照效果和简单光照效果的烟雾动画实时绘制. 通过体素遍历整数算法加速烟雾的渲染并实现了烟雾的复杂光照. 实验结果对比表明, 复杂光照比简单光照模拟出的烟雾真实感更强. GPU远高于CPU对物理方程的求解速度, 使烟雾模拟实时性更强. 相似文献

12.

用通用显卡加速三维锥束T-FDK重建算法 总被引：4，自引：0，他引：4

戴智晟陈志强邢宇翔张丽毕文元《清华大学学报(自然科学版)》2006,46(9):1589-1592

利用通用显卡实现算法加速是一种适应CT重建特点的重要硬件加速方法。为了提高三维锥束T-FDK算法的重建速度,在对T-FDK算法简单描述的基础上结合显卡特点提出了快速实现T-FDK算法重建的方法。由于显卡的浮点管道比8bit的纹理光栅化管道慢,但是精度高,将两者结合,在力求达到重建速度和图像质量的平衡的基础上实现了该方法。实验结果表明,与经过初步对称性优化后的T-FDK软件算法相比,快速算法达到了27.6倍的时间加速比,从而在保证图像质量的情况下提高了重建的速度。相似文献

13.

基于改进GA的K-均值聚类算法 总被引：3，自引：0，他引：3

向永生张颖刘燕婷陈曦《长沙理工大学学报(自然科学版)》2009,6(1):73-76

利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但容易出现局部早熟现象．为了克服以上缺点,借助免疫机制的优点,将免疫原理的选择操作机制引入遗传算法中,提出基于改进遗传的K-均值聚类算法,该方法结合K-均值算法的高效性和改进遗传算法的全局优化能力,较好地解决了聚类中心优化问题．试验结果表明,本算法能够有效改善聚类质量．相似文献

14.

基于GPU的粒子滤波并行算法 总被引：1，自引：1，他引：0

孙伟平向杰陈加忠余胜生《华中科技大学学报(自然科学版)》2011,(5):63-66

针对粒子滤波跟踪算法计算量较大,需要在跟踪准确性与计算效率之间做出妥协的问题,分析了粒子滤波算法的并行性,提出了基于图像处理单元(GPU)平台的粒子滤波并行算法.将传统粒子滤波算法与GPU有效结合起来,充分利用GPU并行运算的性能,加快粒子滤波算法的计算速度.对所提出算法的计算性能与普通串行算法进行了对比,实验结果表明该算法在不降低跟踪准确性的同时,平均每帧处理时间显著减少. 相似文献

15.

基于K均值的带变异粒子群聚类算法 总被引：1，自引：0，他引：1

陶新民徐鹏张冬雪郝思媛《应用科技》2011,(12):25-28

针对K均值算法的搜索结果依赖于初始聚类中心以及粒子群算法早熟收敛的缺点,提出了一种基于K均值的带变异粒子群聚类算法.该算法通过粒子群算法来弥补K均值算法的不足,根据粒子的收敛情况判断K均值操作的时机,提高了搜索性能,并采用变异操作来跳出局部极值.分别用K均值算法、PSO-K均值算法和该算法对3种实际数据进行了聚类测试,... 相似文献

16.

基于进化策略的K-means聚类算法 总被引：3，自引：0，他引：3

阎岭蒋静坪《江南大学学报(自然科学版)》2004,3(3):245-248

针对K-means聚类算法易陷入局部极小以及K值选取的问题，提出一类基于进化策略的聚类算法，可以有效地搜索最优聚类中心和聚类个数K；还提出了确定K值范围的经验公式，以减小搜索空间，提高搜索效率，并给出了理论分析．相对遗传算法而言，本方法鳊码简单，种群较小．对Fishers iris数据集的仿真实验表明，该方法得到最优解的可能性比经典算法大得多．相似文献

17.

关于CPU＋GPU异构计算的研究与分析 总被引：2，自引：0，他引：2

许桢《科技信息》2010,(17):I0097-I0097,I0014

在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,＂结合＂也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU＋GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口（OpenCL）的发布,CPU＋GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。相似文献

18.

基于GPU的高光谱遥感岩矿信息快速提取方法 总被引：2，自引：0，他引：2

柳家福吴泽彬刘天石韦志辉王启聪《中国科技论文在线》2014,(10):1137-1143

提出了基于图形处理单元（graphics processing unit,GPU）的高光谱岩矿信息快速提取方法,利用GPU的并行计算优势对高光谱岩矿信息提取的核心步骤进行了并行优化设计。针对高光谱岩矿信息提取的算法特点,提出了相应的性能优化策略,包括优化算法流程、提高访存效率和减少数据访问冲突。实验结果表明,并行设计模型与优化方法能够快速有效地进行岩矿信息提取,并且最大加速比达到了81倍。相似文献

19.

基于密度RPCL的K-means算法

谢娟英郭文娟谢维信高新波《西北大学学报(自然科学版)》2012,(4):570-576

目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。相似文献

20.

基于RBF神经网络的客户分类模型 总被引：5，自引：0，他引：5

匡芳君王艳华唐贤瑛《长沙理工大学学报(自然科学版)》2005,2(4):70-73

运用径向基函数（RBF）神经网络和K均值聚类算法建立了客户价值分类模型,并用最小二乘法调整RBF的权值．仿真结果证明了该方法的有效性．相似文献