首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

2.
给出了一种面向当前和未来不对称内存计算平台的OLAP查询处理技术.不对称内存计算平台是指配置有不同计算类型的处理器、不同存储访问设备的计算机,因此需要对OLAP查询处理模型按不同的计算特点进行优化存储配置和实现算法设计,从而使OLAP查询处理的不同阶段更好地适应相应的存储与计算设备的硬件特点,提高硬件设备的利用率,更好地发挥硬件的性能.提出了3阶段OLAP计算模型,将传统基于迭代处理模型的OLAP查询处理过程分解为计算密集型和数据密集型负载,分别由功能完备的通用处理器和并行计算能力强大的协处理器分而治之地完成,并最小化不同存储与计算设备之间的数据传输代价.实验结果表明基于负载划分的3阶段OLAP计算模型能够较好地适应CPU-Phi不对称计算平台,实现通过计算型硬件加速计算密集型负载,从而加速整个OLAP查询处理性能的目标.  相似文献   

3.
图形处理单元(GPU)已经成为当今的主流计算系统的一个组成部分,现代GPU不仅是一个功能强大的图形引擎,也是一个高度并行的可编程处理器,GPU的峰值运算和内存带宽往往大幅超出其CPU所对应的峰值和内存带宽。本文介绍了基于GPU通用计算框架的JACKET加速MATLAB的计算仿真方法,通过FFT算法得出仿真结果,分析在CPU和GPU运行环境下的GFLOPS和加速比,最后得出基于GPU的MATLAB计算仿真程序运行效率在JACKET的加速下大大提高了。  相似文献   

4.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

5.
基于GPU的弹性图像配准方法   总被引:2,自引:0,他引:2  
通常的弹性配准技术因其计算强度大,消耗时间长,难以满足实时应用的要求.新一代图形处理器(GPU)以其用户友好的可编程性和出色的并行计算能力,为解决该问题提供了新的途径.根据GPU的自身特点,以薄板样奈插值作为变换模型,构建了弹性配准计算平台.对二维单模态和多模态的两组图像进行实验,结果表明,相比于CPU,利用GPU可以更为迅速地获得变换参数,对于大尺寸、高分辨率或者多局部形变的图像,GPU的处理速度超出CPU 1个数量级以上.  相似文献   

6.
由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大的网络层放在CPU端计算,并通过AVX2指令集提高CPU端的计算效率。核心技术点包括网络模型的切分与协调、基于AVX2指令的应用代码矢量化等。上述策略最终在Caffe上实现。在包括CIFAR-10、 ImageNet在内的典型数据集上的实验结果表明:采用混合运算策略后,Caffe能够正常运行更大型神经网络模型,并保持较高的执行效率。  相似文献   

7.
矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍.  相似文献   

8.
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。  相似文献   

9.
为了充分发挥Web机群后端服务器的实际处理能力,实现了一种基于最小负载的Web机群负载均衡算法.该算法依据后端服务器的实际状态:CPU使用率、内存使用率、网络利用率和磁盘性能,通过定时获取后端服务器的状态信息,导出服务器综合负载并放大取整,作为服务器权值.基于最小负载的均衡算法能够动态反馈,具有自适应特性.与加权轮转调度算法相比,基于最小负载的调度算法具有更高的请求成功数和较低的请求失败数.  相似文献   

10.
针对手工优化GPU(Graphic Processing Unit)显存级数据复用过程复杂和编译时优化数据复用开销过大的问题,提出了一种基于动态生成树在运行时进行数据复用的优化方法,可为程序员提供一种透明且高效简单的优化方式.该方法将已经执行的GPU计算任务的数据访问抽象为生成树的叶子节点,利用动态生成树管理GPU数据访问信息,实现了运行时GPU显存级数据的复用优化,并通过运行时对生成树的搜索和维护,动态地发掘和优化GPU显存级数据复用,因此,在编程时不需要进行复杂且困难的数据复用分析,直接调用文中提出的运行时库就能有效减少程序执行过程中CPU内存和GPU显存之间的冗余数据传输次数,从而提升应用的运行性能.实验结果表明,使用文中提出的优化方法可有效消除未进行数据复用优化的CPU-GPU应用程序中的冗余数据传输,最大加速比达原始执行的3~10倍,额外开销不到优化后程序总执行时间的5%.  相似文献   

11.
信息作为我们生活交流媒介的一部分,那么信息的接收和发送更值得我们深入的认识和研究.主要从短信网关的引入、短信网关的系统组成、短信网关的系统功能以及应用短信网关服务进行分析论述.  相似文献   

12.
空间环境对植物影响的研究进展   总被引:1,自引:1,他引:0  
从蛋白质和基因水平分别介绍空间微重力、强电离辐射、亚磁场及空间综合因素对生物性状和遗传变异的影响,并对今后空间诱变育种的前景和存在问题加以概述。  相似文献   

13.
针对云计算的发展趋势,结合校园网基础设施特点,研究和分析了虚拟化技术和云计算模式,提出一种基于Hyper-V的私有云计算环境模式,并在校园网内实现了该模式的私有云构建,为云计算环境在高校的实现提供了具体方法。  相似文献   

14.
采用有限元分析工具ANSYS完成了一种矩形弹性膜绝缘体上硅(SOI)高温压力传感器的优化设计,制作出样品,并与相同结构、工艺的多晶硅压力传感器进行了对比测试。结果表明:1:2的膜片宽长比可以使SOI压力传感器的灵敏度达到220mV/MPa,远大于多晶硅压力传感器的灵敏度(约50mV/MPa)。此外,该传感器能够工作在200℃的高温环境中,有良好的长期稳定性,30d内的零点时间漂移为0.12%。  相似文献   

15.
深度学习中卷积神经网络在行为识别领域有着良好的识别效果,但是由于深度学习需要较大数据集训练模型,而现今公开数据集中危险行为识别相关方向没有大量数据集。针对危险行为识别领域样本少、无法进行深度学习训练等问题,建立了危险行为识别数据集,并采用迁移学习方法对C3D网络模型进行迁移训练。结果表明,迁移学习后C3D网络模型对危险行为识别数据集平均识别率达到了83. 2%,可以有效识别危险行为动作。  相似文献   

16.
针对受驾驶人自身驾驶经验和习惯、视野、道路周边环境等因素影响的车辆行驶轨迹,探究了典型车辆行驶轨迹(正常轨迹、理想轨迹、切线轨迹、漂移轨迹、摇摆轨迹和修正轨迹)条件下的车辆动力学响应. 在Carsim环境中构建了以6种行车轨迹为道路中心线的弯道路段,并使车辆的左前轮始终沿道路中心线行驶,仿真过程中记录车辆动力学参数的时变曲线. 研究表明:车辆沿切线和正常轨迹行驶时,能够以安全、高效、舒适的理想状态通过弯道路段;而当车辆沿修正轨迹、摇摆轨迹等行驶时,行驶稳定性和舒适性较差.  相似文献   

17.
介绍一种采用SOPC技术设计的SVPWM波形发生器,在FPGA中嵌入了32位NiosⅡ软核系统,用以处理SVPWM波形的计算、输出与显示等功能.利用可编程逻辑器件的可在线编程特点和SOPC的技术优势,灵活、快捷地将所需功能模块完全集成在单片的FPGA上,使电路的硬件结构简单,具有较高的性价比.  相似文献   

18.
The copper adsorption on olivine supplied by A/S Olivine production plant at Aheim in western Norway has been studied. The factors which affect the uptake of copper have been evaluated. The results reveal that the equilibrium PH in aqueous solution has the greatest influence on the copper adsorption thanks to the competitive adsorption between proton and copper ions, and the adsorption of copper to olivine increases rapidly with the pH increasing from 4 to 6. The initial copper concentration and olivine dose also possess significant effect on copper adsorption. The adsorption efficieny of copper increases with the increase of olivine dose or the decrease of initial copper concentration at the same pH. The ionic strength effect on the adsorption has also been investigated, but it owns little effect on the adsorption process of copper due to the formation of inner sphere surface complexation of copper on olivine. The experimental data show that olivine has a high acid buffer capacity and is an effective adsorbent for copper.  相似文献   

19.
基于AJAX的WebGIS应用   总被引:2,自引:0,他引:2  
针对目前WebGIS中所存在的问题,介绍了AJAX方法的概念和内涵,提出了基于AJAX方法构建网络地理信息系统的思路。并以森林资源信息网络发布系统的原型开发为例,阐述了该方法的优点和一些关键技术。结果表明通过AJAX方法的使用不仅能够快速地实现森林资源信息的网络发布功能,而且能够很好地改善WebGIS应用中以地图为载体的地理信息的网络传播和显示速度,带来丰富的用户体验。  相似文献   

20.
基于MFOP的可靠性维修方案研究   总被引:1,自引:0,他引:1  
龙江 《科学技术与工程》2005,5(15):1108-11101118
基于无维修工作期(Maintenance Free Operating Period,MFOP)的可靠性理论既可有效改善飞机及其设备的可用性,同时也可大大降低后勤保障成本;首先对MFOP及其相关概念进行了介绍,然后重点讨论了基于MFOP的维修方案的制订方法及其对飞机可用性、维修成本和设计的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号