首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   3篇
  免费   0篇
综合类   3篇
  2015年   1篇
  2014年   1篇
  2008年   1篇
排序方式: 共有3条查询结果,搜索用时 0 毫秒
1
1.
BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%.  相似文献   
2.
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。  相似文献   
3.
A multifrontal code is introduced for the efficient solution of the linear system of equations arising from the analysis of structures. The factorization phase is reduced into a series of interleaved element assembly and dense matrix operations for which the BLAS3 kernels are used. A similar approach is generalized for the forward and back substitution phases for the efficient solution of structures having multiple load conditions. The program performs all assembly and solution steps in parallel. Examples are presented which demonstrate the code’s performance on single and dual core processor computers.  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号