首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合"申威26010"异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。  相似文献   

2.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

3.
随着多核处理器被广泛的应用于桌面系统,如何充分利用多核处理器的计算能力,挖掘应用程序的并行性,以充分发挥多核系统的强大计算能力,成为近几年国内外计算机领域研究的热点,多核系统并行程序设计也成为所有专业软件开发人员必须了解和掌握的一项技术.本文阐述了一种以OpenMP为基础的多核并行程序设计方法,研究并提出了两种符合多核系统并行程序设计特征的编程模式:条件同步模式和线程分组竞争模式.实验证明这些方法简单高效.  相似文献   

4.
VLSI技术进步和应用驱动使多核技术成为主流的微处理器设计技术。多核处理器作为一种时空域器件,应把超级计算机作为多核处理器的设计参考系,其主流架构将最终收敛到"小核、大阵列、层次化"上。文章利用Xilinx Virtex5-330TFPGA器件,设计实现了一款集成16个处理核的具备层次化架构特征的嵌入式多核处理器原型芯片,工作频率为90 MHz。多核处理器利用层次化的体系架构、灵活的片上互连、多种同步机制以及合理的并行程序模型,成功加载了实时视频淡入淡出(fade-in-fade-out)混叠应用(320×240,30帧/s)。基于该多核处理器架构,研究比较了粗粒度和细粒度2种并行编程模型。细粒度模型的多核同步操作稍复杂,但很好地掩盖了应用的串行操作时间,对视频淡入淡出混叠应用的加速比可达6.97。  相似文献   

5.
虽然OpenMP是多核体系结构上的流行多线程并行编程模型,但是OpenMP编译器不检查数据相关性、访问冲突和其他可能导致程序错误执行的问题,这些问题传统上完全依赖用户使用锁机制来保证程序的正确性.锁机制的并行编程中存在并行程序效率和并行编程难度的矛盾.粒度大的锁机制编程容易,可应用的并行性挖掘比较差;粒度小的锁机制应用的并行性挖掘较好,可编程难度大,容易带来优先权倒置、死锁和锁护航等问题.通过动态二进制插桩技术,扩充OpenMP支持事务存储执行功能,可有效缓解OpenMP并行编程中并行程序效率和并行编程难度之间矛盾.  相似文献   

6.
摘要:
针对超大规模集成电路中复杂互连线网络的快速仿真需求,提出并实现了含频变分布参数互连线网络的并行仿真技术.建立频变互连线的等效传输线模型,并借助多端口等效模型将互连线部分与其他电路单元相分离,实现互连线仿真的并行化.互连线采用时域有限差分方法求解,而除去互连线的其他电路则在集成电路模型程序(SPICE)中进行仿真,两者在同一时间步内交换数据.基于该技术开发出并行仿真软件FdSPICE.数值实验证明,该软件计算精度较高,可有效提高复杂互连线网络的仿真效率.

关键词:
互连线; 频变参数; 并行仿真; 时域有限差分

中图分类号: TN 47
文献标志码: A

 XIE De fu,TANG Min,MA Li zhuang,MAO Jun fa


Abstract:  相似文献   

7.
摘要:
提出了针对多核处理器的2级缓存L2 Cache设计方案,以高效地处理访存请求.采用优化的目录协议维护与1级缓存L1 Cache的数据一致性,并结合片上目录来维护L2 Cache之间及其与3级缓存L3 Cache之间的一致性;在L2 Cache设计中,提出了基于MESIA F的Cache一致性协议,实现了最早返回取数数据的短流水线设计;采用相关链和远程链机制解决了监听应答导致的死锁问题;通过基于流水线的睡眠与唤醒技术降低了漏流功耗;通过细粒度门控时钟降低了其动态功耗.后端设计结果表明,经过优化设计的L2 Cache达到了频率2 GHz的设计目标,并已成功应用于某16核处理器芯片. 关键词:
中图分类号: 文献标志码: A  相似文献   

8.
目的设计并实现一种基于数据划分的矩阵乘法的并行算法,将划分的数据交给多个线程同时执行,充分挖掘计算机的性能。方法根据OpenMP并行编程的基本风格,并在Visual Studio2005上搭建能够实现并行编程的环境平台。结果并行算法所花费的时间较非并行算法短。结论通过与非并行矩阵乘法性能进行比较,验证该算法可以有效地利用多核处理器的优势。  相似文献   

9.
一种高性能、RISC-VLIW融合的多核、可重构数字媒体处理器已经从专利发明顺利形成了一个先进的数据处理器设计平台(Digital Multi-processor Platform)。研发的结果体现若干先进处理器技术的融合。(1)应用:低功耗并行运算处理覆盖数字信号处理(DSP)、数字媒体处理(DMP)和超级并行处理器(SPP)的应用扩展领域;(2)体系结构:精简指令(RISC)和超常指令字(VLIW)处理器融合于同一个可配置的平台;(3)运算能力:处理器群调用异构的通用处理器核,使用两类处理器核实例:通用处理器核(包括ALU等的通用运算)和专用处理器核(包括DDCU的用户自定义运算核);(4)可配置和可重构:硅编译器、SoC集成工具、用户自定义运算单元、多核间的和槽内的流水线、包括运算单元的现场编程;(5)设计自动化平台:专用工具用于设计、分析与验证;与商业电子自动化设计(EDA)流程接口;(6)产品模式:硅知识产权(Silicon IP)、通用处理器芯片系列(IC Series)、定制单片系统(SoC)。命名为Fusion的融合式数字多核处理器平台把数个先进处理器技术集成到一个统一的体系结构和设计环境之中...  相似文献   

10.
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍.  相似文献   

11.
为解决传统递归方式的归并排序算法串行执行效率低的问题, 使用数据依赖关系分析方法对归并排序算法进行并行性分析。通过分析发现算法本身具有并行的特征, 在多核处理器下使用OpenMp编译制导语句对算法进行直接并行化处理。在数据量较大的情况下, 为了使算法执行的速度更快, 在多核处理器系统中设置多个线程, 并将序列分成多个组, 每个线程操作一组数据, 最后对多个局部有序的结果进行逐一合并。实验验证结果表明, 该并行化算法可使执行速度提高50%以上。  相似文献   

12.
提出了一种可编程安全处理器PSP(Programm ab le Security Processor)的体系结构,该体系结构由SPARC V8处理器内核、AHB片上总线及密码算法模块等部分构成,密码算法模块通过AHB总线与处理器内核进行高速交互.FPGA原型实现表明,该安全处理器能通过SPARC指令编程进行灵活控制,密码算法模块可以按需配置,能够满足嵌入式计算中对安全性和灵活性的需要.  相似文献   

13.
天文学研究中经常需要通过交叉证认将来自多波段多项目天文数据联系起来统一考虑. 当前天文数据急剧增长, 必然导致交叉证认的速度过慢. 针对这一问题, 提出一种在多核环境下使用Python 语言进行高效并行计算的方法, 与以往的研究结果相比, 速度提高了若干倍. 这为下一步的多波段数据统计研究和数据挖掘打下了良好的基础.  相似文献   

14.
An instruction level parallel computing paradigm and a unified architecture for an array processor (AP) on a chip (SoC) are presented in this paper. Here “APU SoC” is short for “an AP SoC for the unified architecture”. The MISD/MIMD architecture for instruction level parallel computing is unified with the SIMD architecture for data level parallel computing. As a result, all the computing can be implemented on an APU SoC. The APU SoC offers the rationale of an array structure for development in current technology, yet simplicity for the hardware (chip) and software (program) parallel designs. Just as a single processor chip can replace many function module chips, the APU SoC can replace the single-core/multi-core/many-core CPU chip for TLP computing and the ASIC/ASSP/FPGA/RC device array chip for Operation Level Parallel computing.  相似文献   

15.
维修性数据收集与分析系统是装备信息化管理的重要组成部分。介绍了装备使用阶段维修性数据收集与分析系统的任务、功能和体系结构设计,重点阐述了数据收集与数据分析评估模块的功能设计,并采用Access数据库管理系统,运用Visual Basic程序开发语言进行了维修性数据收集与分析原型系统开发。  相似文献   

16.
利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。  相似文献   

17.
ABC95 array computer is a multi-function network's computer based on FPGA technology, The multi-function network supports processors conflict-free access data from memory and supports processors access data from processors based on enhanced MESH network.ABC95 instruction's system includes control instructions, scalar instructions, vectors instructions.Mostly net-work instructions are introduced.A programming environment of ABC95 array computer assemble language is designed.A programming environment of ABC95 array computer for VC++ is advanced.It includes load function of ABC95 array computer program and data, store function, run function and so on.Specially, The data type of ABC95 array computer conflict-free access is defined.The results show that these technologies can develop programmer of ABC95 array computer effectively.  相似文献   

18.
ABC95 array computer is a multi-function network's computer based on FPGA technology, The multi-function network supports processors conflict-free access data from memory and supports processors access data from processors based on enhanced MESH network.ABC95 instruction's system includes control instructions, scalar instructions, vectors instructions.Mostly net-work instructions are introduced.A programming environment of ABC95 array computer assemble language is designed.A programming environment of ABC95 array computer for VC++ is advanced.It includes load function of ABC95 array computer program and data, store function, run function and so on.Specially, The data type of ABC95 array computer conflict-free access is defined.The results show that these technologies can develop programmer of ABC95 array computer effectively.  相似文献   

19.
单片机多机通信网络改进及数据通信容错技术   总被引:5,自引:4,他引:5  
对单片机数据通信网络物理结构进行改进,实现多机自主通信.以单片机串行口为基础,实现数据通信的容错技术.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号