期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周治国《上海信息化》2008,(6):53-55

随着3D游戏及高清视频的普及,计算机渴望获得更强的图形处理能力。这导致CPU（中央处理器）厂商和GPU（图形处理器）厂商在不断提升自己产品性能的同时,也开始向对方领域渗透。近日,英特尔,AMD等中央处理器生产商蠢蠢欲动,意在推出整合GPU的处理器,而显卡龙头厂商NVIDIA则指出英特尔集成显卡性能不足其独立显卡性能的1/10,同时开始探讨“将原本属于CPU的数据处理功能搬到GPU上”,对以往一直以CPU为核心的电脑数据计算体系发起挑战。这是一场由来已久的纷争,究竟谁能吞并谁？人们将试目以待。相似文献

2.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

3.

板卡型非线性编辑系统与CPU＋GPU＋I／O非线性编辑系统之比较

孟华《科技信息》2008,(15):60-60

本文通过介绍传统板卡型非线性编辑系统与CPU＋GPU＋I／O架构的非线性编辑系统的组成、工作原理、特点，将二者进行比较，从而对非编系统的未来发展提出展望。相似文献

4.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

5.

CPU设计：常见问题的答案

Chandra M. R. Thimmannagari 丁丹《国外科技新书评介》2006,(3):9-10

中央处理器（Central Processing Unit，CPU），作为整个计算机系统最为关键的部分，已经越来越引起业界对其设计的关注和研究兴趣。各大芯片制造商和研究机构争相推出自己的个人电脑（Personal Computer，PC）通用处理器体系结构，基于x86指令集的Intel Pentium系列和AMD Athlon系列处理器，以及基于MIPS指令集的Godson系列处理器。当今这个后PC时代，嵌入式处理器以其高性能、相似文献

6.

CPU和GPU的协同工作

翟少华刘淘英王晓欣赵宏伟《河北科技大学学报》2011,32(6):585-589,614

结合当前GPGPU的CUDA编程模型,对GPGPU编程模型和其软硬件特性进行研究和分析,并针对应用进行实际探讨.提出CPU如何加入GPGPU编程,在未来的GPGPU模式将会变得更通用. 相似文献

7.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

8.

基于多GPU的深层神经网络快速训练方法

薛少飞宋彦戴礼荣《清华大学学报(自然科学版)》2013,(6):745-748

近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。相似文献

9.

基于GPU的弹性图像配准方法 总被引：2，自引：0，他引：2

张加万杨甲东孙济洲张红颖《天津大学学报(自然科学与工程技术版)》2008,41(8):946-950

通常的弹性配准技术因其计算强度大,消耗时间长,难以满足实时应用的要求．新一代图形处理器（GPU）以其用户友好的可编程性和出色的并行计算能力,为解决该问题提供了新的途径．根据GPU的自身特点,以薄板样奈插值作为变换模型,构建了弹性配准计算平台．对二维单模态和多模态的两组图像进行实验,结果表明,相比于CPU,利用GPU可以更为迅速地获得变换参数,对于大尺寸、高分辨率或者多局部形变的图像,GPU的处理速度超出CPU 1个数量级以上．相似文献

10.

基于异构模式的云计算关键技术研究

张庆科杨波王琳陈贞翔《山东科学》2011,24(5):56-62

结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系统GFS和HDFS,最后从宏观角度阐释了云计算虚拟化技术的三层部署架构和基本类型。相似文献

11.

异构计算系统的三元模型与性能分析 总被引：2，自引：1，他引：2

郑飞陆鑫达《上海交通大学学报》1997,31(8):12-15

基于异构计算系统（ＨＣＳ）体系结构的双层异构性，提出一种描述ＨＣＳ体系结构的三元模型，其本质是对ＨＣＳ各类性能模型作出划分．推导并分析ＨＣＳ〈０，２＊，０〉型异构计算系统的性能模型相似文献

12.

GPU上具有复杂光照烟雾动画的绘制

刘淑芬金钊《吉林大学学报(理学版)》2011,49(4):713-716

采用Navier Stokes方程作为烟雾的物理模型方程, 基于图形处理器(GPU)实现了具有复杂光照效果和简单光照效果的烟雾动画实时绘制. 通过体素遍历整数算法加速烟雾的渲染并实现了烟雾的复杂光照. 实验结果对比表明, 复杂光照比简单光照模拟出的烟雾真实感更强. GPU远高于CPU对物理方程的求解速度, 使烟雾模拟实时性更强. 相似文献

13.

基于GPU的可扩展哈希方法

胡学萱奚建清林妙《华南理工大学学报(自然科学版)》2015,43(1)

为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并发地创建哈希表、更新索引和检索数据.实验结果表明,该算法的查询数据、维护哈希表和更新索引性能优于其他多核CPU的线性哈希及可扩展哈希算法,尤其是在高负载的情况下. 相似文献

14.

混沌线程池与GPU优化的批量图像加密算法

潘明华王一涵谷盛民孙绍华《科学技术与工程》2023,23(34):14618-14626

数据量大且冗余度高是数字图像显著的特征,这对大批量图像快速实时加密提出了挑战。为了解决此问题,基于Lorenz混沌加密技术,设计了一种采用线程池与图形处理器(graphics processing unit,GPU)组合优化的批量图像加密算法。该算法通过线程池改进图像的读写,并进行图像镜像变换;利用Lorenz混沌系统生成加密序列,结合图像分块混沌序列进行加密;然后对批量图像数据进行打包,通过GPU进行大批量的异步计算;最后重组图像矩阵得到批量加密图像。实验测试表明,该算法能够有效抵御常见的攻击手段,经过性能优化后的批量数字图像加密算法,可以保证图像安全性;同时,在批量图像读取速率和加解密处理效率方面有显著的提高。相似文献

15.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

16.

基于GPU的K-means并行算法研究与实现

原建伟王坤李爱国《陕西理工学院学报(自然科学版)》2012,28(5):44-48

分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性.研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高. 相似文献

17.

ARM GPU的多任务调度设计与实现 总被引：1，自引：0，他引：1

丑文龙梅魁志高增辉李博良《西安交通大学学报》2014,(12):87-92

针对现有GPU任务调度系统在多任务环境下不能保证图形任务响应时间的问题,提出基于分类和多优先级队列(CPMQ)的调度方案,并在ARM的嵌入式GPU上实现验证。该方案中,将GPU的多任务划分为图形任务、通用计算任务和实时图形3类任务并分别建立队列排队,其中图形任务和通用计算任务按照优先级在各自队列中排队,实时图形按照任务截止时间排队。面向多队列的任务调度,优先从实时任务队列中选择任务,并按照加权公平算法分别在图形任务队列和通用计算队列中选择任务。实验结果表明:相比于ARM GPU的原有调度系统,CPMQ在不显著增加通用计算任务的执行时间和调度开销的情况下,将实时图形任务的帧率提升了5%~20%。相似文献

18.

基于GPU的模态分析并行算法

朱彬张宜生王梁田晓薇《华中科技大学学报(自然科学版)》2012,40(5):33-36

开发了基于图形处理器（GPU）的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度. 相似文献

19.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

20.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献