期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高阳阳徐烈伟俞剑许薇《复旦学报(自然科学版)》2019,58(6)

针对大规模数据处理和动态更新规则的网络计算需求,本文提出了一种新型动态可重构的正则表达式匹配(DRR)算法.算法采用参数化一致性表达方法,提高了正则表达式的动态匹配能力;采用专用电路与可重构电路的混合计算框架,设计了正则表达式匹配的并行计算加速引擎.在软硬件协同工作模式下,新型动态可重构的匹配加速引擎不仅可以最大化利用FPGA电路的可编程特性实现表达式匹配规则的动态更新,提高匹配的预处理速度,设计的专用ASIC并行匹配电路更大幅提高了正则表达式的匹配计算速度.本文采用TSMC 28nm CMOS工艺完成芯片的设计和流片,实验结果表明:本文设计实现的动态可重构的匹配加速引擎可以有效地适用于大多数应用场景下的正则表达式匹配,匹配计算的吞吐率达到280Gb/s,相比于同类型基于FPGA的匹配计算引擎实现了5倍以上的匹配速度提升. 相似文献

2.

二维含动边界流场的并行计算

张军谭俊杰任登凤《河海大学学报(自然科学版)》2007,35(4):460-463

将并行计算方法应用于含运动边界流场的数值模拟,采用弹簧方法生成非结构运动网格.并行程序结构采用主从模式,主进程只负责数据的发送和接收,每个从进程的计算任务对应一个子区域.通过守恒型ALE(Arbitrary Lagrangian-Eulerian)方程的求解,对NACA0012翼型振动问题进行了数值模拟,并对不同分区数目情况下的计算时间、并行计算加速比和并行计算效率进行了比较.算例结果表明,随着分区数的增加,进行计算CPU的效率先增加后下降,而并行计算的加速比不断增加. 相似文献

3.

有限元并行计算的MPI程序设计

雒战平刘之行《西安交通大学学报》2004,38(8):873-876

以Poisson方程边值问题的求解为背景,实现了有限元并行计算的MPI程序设计.通过生成一种特殊结构的刚度矩阵,并在此基础上,设计了一套有效的并行计算策略,使计算的并行性得到很好的开拓,实现了包括刚度矩阵的生成、刚度矩阵的三角分解以及解三角方程组的并行执行.程序在国家高性能计算中心(西安)的曙光3000上进行了数值试验,结果表明,随着开辟进程数目的增多,加速比变得比较理想,当进程数目为30时,表明该进程数目在最优进程值附近.在60台处理器(进程)上计算18万个节点的大规模问题时,共耗时176 96415s. 相似文献

4.

在FPGA上实现及优化加速卷积神经网络的方法

郑文凯杨济民《山东师范大学学报(自然科学版)》2019,(2)

本文在FPGA芯片zynq7020上实现了一种基于Lenet-5卷积神经网络的AI芯片设计,采用了将卷积操作转换为矩阵乘法、并行计算、流水线计算等技术来加速CNN的运算速度,提高了片上系统性能,并利用该芯片,实现了对手写数字集MNIST的快速准确识别.实验证明,在分类准确率几乎相同的前提下,该AI芯片与ARM Cortex-A9 CPU在处理相同批量MNIST数据集时实现了大约22倍的加速.并且该AI芯片在实现CNN的设计时采用了Vivado软件编程替代传统的硬件语言,降低了软件开发人员开发FPGA的门槛. 相似文献

5.

一种基于并行计算熵迁移策略的多分辨DOM数据生成算法

孙宏元谢维信杨勋陆克中《中国科学技术大学学报》2007,37(12):1478-1482

数字正射影像图(digital orthophoto map,DOM)数据通常以多分辨数据形式组织,并以切片的方式存储,而海量多分辨DOM数据的生成需要大量计算和大容量存储.针对此问题,提出一种基于并行计算熵迁移策略的并行多分辨DOM数据生成算法,以减少海量多分辨DOM数据的生成时间.该算法采用并行计算熵来衡量并行计算机系统的负载平衡程度,并以此判断何时需要进行负载迁移以及如何迁移.仿真实验表明,与串行算法相比,该算法能有效减少程序执行时间,并且能获得较高的加速比和并行效率. 相似文献

6.

基于GPU 加速的边界面法正则积分的研究

张见明余列祥刘路平《湖南大学学报(自然科学版)》2013,40(3):41-45

基于GPU高性能并行计算,在CUDA编程环境中实现边界面法正则积分的并行加速.在NVIDIA GTX680GPU和英特尔(R)酷睿(TM)i7-3770KCPU的计算平台上与传统的正则单元积分对比.数值算例表明,在保证相同精度的前提下,加速比可达到8.3. 相似文献

7.

基于CUDA的高速并行高斯滤波算法 总被引：2，自引：1，他引：1

卢文龙王建军刘晓军《华中科技大学学报(自然科学版)》2011,(5):10-13

为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力. 相似文献

8.

基于OpenMP和Pardiso的柔性多体系统动力学并行计算

曹大志强洪夫任革学《清华大学学报(自然科学版)》2012,(11):1643-1649

为加快大型、复杂柔性多体系统的动力学仿真的速度,对多体系统动力学的并行算法进行研究。首先分析了微分代数方程(differential algebraic equations,DAEs)在数值计算求解过程中主要的计算量。据此,提出采用OpenMP并行计算系统的刚度矩阵、右端项和采用并行的稀疏线性方程组求解器Pardiso对线性方程组进行求解的并行策略。将这两种并行策略应用到自主开发的柔性多体系统动力学软件THUSolver中,实现了对多体系统动力学的并行计算。通过两个工程算例的仿真得到并行的加速比和计算效率,结果表明:采用的两种并行策略都有很高的计算效率,能大幅提高多体系统动力学仿真的速度。相似文献

9.

基于MPI+OpenMP混合编程模式的大规模颗粒两相流LBM并行模拟

何强李永健黄伟峰李德才胡洋王玉明《清华大学学报(自然科学版)》2019,(10)

针对大规模三维颗粒两相流全尺度模拟并行计算问题,该文采用MPI+OpenMP混合编程模式,其中机群节点采用MPI并行计算,节点内部采用OpenMP进行细粒化的并行计算,并根据格子Boltzmann方法(LBM)颗粒两相流的特点进行OpenMP程序并行优化设计,提出了一种适用于大量颗粒的三维颗粒两相流LBM并行计算模型。以颗粒沉积问题为例,在集群计算机平台对并行算法的加速性能进行测试。计算结果表明:该算法具有良好的加速比及扩展性,并且其计算量具有颗粒数量不敏感的优点,适用于大规模多颗粒两相流问题的研究。相似文献

10.

基于多图形处理单元加速的各向异性弹性波正演模拟 总被引：1，自引：0，他引：1

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块图形处理单元(GPU)并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为256~3的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献