首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于龙芯2F体系结构的BLAS库优化   总被引:3,自引:1,他引:2  
在KD-50-Ⅰ平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测试表明,高性能BLAS在750MHz的龙芯2F处理器(双精度浮点峰值3Gflops)上HPL实测峰值达到1.47GHz,比原始BLAS提高了6倍以上,比ATLAS提高了45%.  相似文献   

2.
分块矩阵的对角占优性   总被引:8,自引:0,他引:8  
在线性代数计算方法研究中,一种是着重于计算的方法本身的研究,另一种是对矩阵应用某些技巧,例如矩阵分块技巧来研究原矩阵的性质和计算的方法. 矩阵的分块和分块矩阵的简单代数运算如加、减、乘及其转置、共轭以至分块的迭代,作为矩阵的一种运算技巧,很早就在矩阵理论中出现,到了六十年代初,开始有人对分块矩阵本身的性质进行了研究,在研究分块矩阵的特征值的同时,提出了分块强对角占优的概念.  相似文献   

3.
建模方法是时间序列分析的核心问题之一。本文给出了两种基于最小二乘法的自回归模型(AR模型)的建模方法。采取预留少量数据递补进入计算的办法,使矩阵XTX可以用分块矩阵求逆公式递推求逆,或者用矩阵的Crout分解法递推求解。同时引入了Winograd向量内积快速算法,充分利用各向量和各矩阵之间的关系来减少计算工作量。使计算量比一般最小二乘建模方法大幅度减少,达到与Marple算法和Burg的最大熵谱法可比的程度。  相似文献   

4.
本文提出了用于数值分析的分块求解方法,即利用计算机的硬盘存贮,对线性代数方程组的系数矩阵进行分块高斯消去求解,在计算机内存中最少只需开辟系数矩阵中两行元素的存贮空间,本方法的突出优点是,能大大节省计算机内存,可使计算机的解题能力提高数十倍,为求解大规模的题目提供了方便.文中还给出了相应的 FORTRAN 子程序框图,经实例计算表明,该分块求解法经济有效,简单实用.  相似文献   

5.
状态时间序列预测的贝叶斯最小二乘支持向量机方法   总被引:3,自引:0,他引:3  
为实现对电子系统状态时间序列的有效预测,提出一种基于贝叶斯证据框架的最小二乘支持向量机在线预测方法.该方法以逐次增加最新状态数据并剔除最旧状态数据的方式更新最小二乘支持向量机预测模型,利用分块矩阵求逆运算简化了新旧状态数据交替增减所带来的预测模型重训问题,通过贝叶斯证据框架实现预测模型超参数的在线动态优化.应用于雷达发射机中高压电源与多注速调管的状态时间序列预测实例表明,该方法的预测精度与计算效率比自适应灰色模型方法分别高9.52%与73.26%,具有预测精度高、预测稳定性高与计算效率高的优点,适用于电子系统在线状态时间序列预测.  相似文献   

6.
分块矩阵在线性代数中是一个重要工具,研究许多问题都要用到它,研究了分块矩阵在计算矩阵行列式、求矩阵的逆矩阵及矩阵的秩方面的应用.  相似文献   

7.
DSP具有能效比高的特点,可以用于通用高性能计算.矩阵乘是许多科学与计算问题的核心算法,在DSP上取得高性能具有重要的理论和现实意义.面向通用DSP,提出了矩阵乘并行算法,建立了矩阵乘峰值性能模型,根据性能模型,构建了矩阵乘性能达Tflops级DSP体系结构参数配置,对通用DSP的设计参数给出了明确的性能指标要求,包括乘加流水线数量、寄存器数目、带宽和延迟.  相似文献   

8.
线性代数在理论和现实生活中有着非常广泛的应用.该课程的教学内容多,课时数较少,而且该课程中大量的内容与矩阵和线性方程组相关.分块矩阵是其中的一个重要教学内容,它可将线性代数的众多知识点联系起来.重点讨论了分块矩阵在线性代数中的应用,也探讨了关于这个知识点的教学方法.  相似文献   

9.
使用NPB并行基准测试程序能有效的测试出大型计算流体力学(CFD)应用中的计算和数据移动特征,这对大量科学与工程应用具有重要意义.在并行机群计算环境下,使用NPB基准测试程序(IS、EP、CG、MG、FT、BT、SP和LU)对该系统的性能进行了评测,实验表明,在一定规模下,NPB的8个基准测试程序随着处理器数目的提高,其系统性能和可扩展性的表现各不一致.EP程序的可扩展性较好,性能较稳定;而IS、CG、MG、BT和SP的可扩展性较差,性能较差;LU和FT在不同规模下,其可扩展性表现为不规律性.机群系统的可扩展性与应用程序的匹配程度还需要进一步提高.  相似文献   

10.
利用矩阵分块简化行列式计算   总被引:1,自引:0,他引:1  
通过对矩阵分块问题的推广,给出计算某些n阶行列式的简便方法,该方法突出线性代数中两大数学工具的联系.  相似文献   

11.
极化码是目前唯一被证明理论上可达到香农极限的线性纠错信道编码。在已有的极化码二、三阶核矩阵研究的基础上,提出了最优四阶核矩阵的构造标准:主对角线全为1 且最后一行“1”的个数为4,并由此给出了符合标准的全部矩阵。不同于只有单一线性形式的二阶核矩阵,四阶核矩阵可以采取多种不同的形式,这一点使得极化码在构造时能够有更多的选择。然后以核矩阵为例,详细介绍了信道极化原理。最后总结了利用给定任意维数核矩阵构建特定块长度的极化码的步骤。  相似文献   

12.
A multifrontal code is introduced for the efficient solution of the linear system of equations arising from the analysis of structures. The factorization phase is reduced into a series of interleaved element assembly and dense matrix operations for which the BLAS3 kernels are used. A similar approach is generalized for the forward and back substitution phases for the efficient solution of structures having multiple load conditions. The program performs all assembly and solution steps in parallel. Examples are presented which demonstrate the code’s performance on single and dual core processor computers.  相似文献   

13.
提出了一种轻权的大程序优化方法--基于代码隔离的迭代编译优化方法,并采用该方法对程序的性能进行测试,结合代码隔离技术,从大程序中分离若干以循环结构为主、性能不相关或相关度较低的核心代码片断,逐个对其进行迭代编译优化搜索,进而更加有效地优化核心代码段.结果表明,所提出的方法可以提高整个程序的性能,可将一个高维的优化空间转换为多个低维优化空间而降低迭代编译的优化开销,是一种易于实现且适合通用代码迭代编译的大程序优化方法.  相似文献   

14.
提出一种分层近似规则(LAR)LDPC码的构造方法及其编码器的设计方案.该方案在现有的RU算法的基础上,完全去掉了前向替换(FS)的步骤,并引入循环移位寄存器结构来处理密矩阵与向量的乘法,使其硬件复杂度从与密矩阵维数平方成正比,下降到只与其维数成正比.与RU算法相比,新方案缩短了编码器的编码延时,提高了吞吐量,还对不同码长和码率的应用具有线上重构的灵活性.仿真结果表明,分层近似规则LDPC码具有与随机构造的规则码极其相近的纠错性能,具有很高的实用参考价值.  相似文献   

15.
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。  相似文献   

16.
在试题库中有一部分试题是相关的,即它们的内容是关于同一个知识点,这些相关的试题,在同一次测试中不应同时出现。为了提高选题效率,将每道试题的相关码设为素数,相关的试题有相同的相关码,不相关的试题有不同的相关码。在选题时,只要进行取模运算和乘法运算,就可以进行选题,该算法的空间复杂度0(1),时间复杂度为0(n)。  相似文献   

17.
Turbo码和LDPC码都可以实现接近Shannon理论极限的性能,Turbo码由于成员RSC码所固有的移位寄存器特性使得其编码较为容易实现,而对于接近Shannon容量的LDPC码,则需要大量的矩阵乘法运算才能完成信息的编码,电路实现较为复杂,另一方面,采用和积算法的LDPC码的译码过程则比采用BCJR算法(及其简化形式)的Turbo译码更加容易实现,且计算复杂度更低,将Turbo编码与LDPC码的译码相结合,对Turbo采用基于其因子图表示的和积译码算法进行译码,可以在很大程度上降低Turbo码的译码复杂度,并对交织器的设计及成员码的选择有一定的指导作用,仿真结果证明了该方案的有效性。  相似文献   

18.
自正交码是一类重要的纠错码,其中的特殊类型——自对偶码一直是研究的重点。研究二元域码长为n=15s 10(s≥0)的四维最优自正交码的特征,并且确定其完整分类。建立了最优[15s 10,4]自正交码的生成矩阵与两个线性方程组之间的联系,将确定最优[15s 10,4]自正交码的问题转化为求解线性方程组的问题。确定出所有最优[15s 10,4]自正交码的生成矩阵,并进一步得到互不等价的最优自正交码的完整分类,给出了互不等价且不含全零坐标的最优[15s 10,4]自正交码的生成矩阵和重量多项式。因此,二元域上最优[15s 10,4]自正交码的参数、结构特征和等价问题得到了完全解决。  相似文献   

19.
矩阵是线性代数中的一个很重要的概念,矩阵一切的深刻性质和重要应用都源自于矩阵的乘法.该文首先引进了一个多项式系数矩阵的概念,然后巧妙地将多项式的乘法转变为矩阵乘法的运算,得到了一个定理,步骤清晰,计算简单.与此同时,对多项式的除法在一定条件下也作了较为深入的分析,获得了类似的结论,同样在计算上带来了很大的方便.  相似文献   

20.
学好高等代数,不但要注重每一个正面问题,而且要熟悉一些问题的反问题.本文讨论了高等代数中矩阵的特征值特征向量、线性变换的核及线性方程组等问题的反问题,并给出了其求解方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号