首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

2.
基于NoC重用的测试方法由于受到channel等资源的限制,测试调度问题变的非常复杂.为此提出了一种测试调度方法,综合考虑时间和功耗因素,在所有核并行测试时间最短的前提下,选取总体测试代价最小的I/O端1:2位置和IP核调度顺序.实验结果表明,本方案有效地降低了NoC的总体测试时间和功耗,提高了并行测试效率.  相似文献   

3.
王帅  俞洋  付永庆 《应用科技》2010,37(10):44-47
在对SOC测试时,SOC测试结构的核心部分是测试访问机制(TAM)和测试调度控制器.文中设计了一种新颖的基于测试总线的SOC测试调度控制器.用户通过上位机给控制器发出指令,使IP核处于不同的测试模式,提高了测试的灵活性.控制器可以通过对测试总线的配置实现多个IP核的并行测试,大大缩短测试时间.实验结果表明,该方案设计合理,可以高效地完成IP核的测试任务.  相似文献   

4.
采用异步电路设计方法学,针对确定性路由算法在异步片上网络实现中遇到的容易阻塞和路由资源浪费等问题,提出了一种适用于2D-Torus拓扑结构的异步片上网络自适应路由算法,并搭建测试平台,对基于该算法的异步片上网络的功能和性能进行分析、验证与测试.结果表明,该算法可以满足路由自适应的要求,有效减小片上网络的路由延迟.基于该算法的异步片上网络可以满足多方向数据通信、多路数据并行通信和数据请求平等仲裁等性能要求,并且可以实现对从节点IP核的访问调用.  相似文献   

5.
RISC体系作为精简指令集计算机的兴起,使得多发射处理器的指令调度算法成为研究热点。本文从程序块划分和执行角度,讨论了多发射处理器的指令调度算法,介绍了几种局部指令和全局指令调度的影响力较大的算法。它们通过指令调度的优化,提高多发射处理器内部功能部件的执行并行性。本文还给出了进一步研究方向,构造多发射结构多处理器并行处理系统,实现处理器之间的并行技术和处理器内部的并行技术的整合。  相似文献   

6.
RISC体系作为精简指令集计算机的兴起,使得多发射处理器的指令调度算法成为研究热点.本文从程序块划分和执行角度,讨论了多发射处理器的指令调度算法,介绍了几种局部指令和全局指令调度的影响力较大的算法.它们通过指令调度的优化,提高多发射处理器内部功能部件的执行并行性.本文还给出了进一步研究方向,构造多发射结构多处理器并行处理系统,实现处理器之间的并行技术和处理器内部的并行技术的整合.  相似文献   

7.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

8.
为了生成一个适用于多处理器片上系统的硬件调度器,提出一种新型的基于有色Petri网(CPN)的动态调度方法.该调度方法使用CPN对包括写后读、写后写、读后写数据相关以及结构相关在内的任务间相关性进行了建模,这些相关会在模型运行的过程中被自动检测出来.根据相关性,任务会被动态地调度并分配到不同的计算单元上乱序执行,从而达到提高任务级并行度的目的.该调度方法分别在软件仿真平台和基于FPGA的硬件平台上得以实现.状态空间分析和对比实验的结果证明了调度方法的正确性和有效性.  相似文献   

9.
为了降低数模混合片上系统(system on chip,SoC)的测试成本,基于片上虚数字化,提出了并行模拟测试外壳组设计,用数字自动测试设备和测试访问机制完成对各个模拟芯核的并行测试.在此基础上,建立了数模混合SoC测试调度优化问题模型,提出了一种基于递增生成的数模联合调度算法PADCOS,该算法具有复杂度低和优化效...  相似文献   

10.
基于CMP的多种并行蚁群算法及比较   总被引:1,自引:0,他引:1  
基于片上多核处理器(Chip Multi-processor,CMP)的多种并行蚁群算法,包括并行最大最小蚂蚁系统、并行蚁群系统及两者的混合等5个并行算法,提出一种在CMP的每个处理器核心上模拟一个子蚁群,整体蚁群共享同一信息素矩阵,实现信息素隐式交流的方法.用多线程实时优先级实现该算法,并用若干旅行商问题实例进行了测试,分析了不同并行策略的影响.测试结果表明,基于CMP的并行蚁群具有相对于核心数目的线性加速比,异种蚁群混合策略在解的稳定性上更具优势。  相似文献   

11.
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点.AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性.但如果任务粒度划分较细,其构图过程会造成很大开销.本...  相似文献   

12.
针对传统任务模型包含有效信息少,任务调度算法效率低、效果差的问题,设计了新的任务模型,提出了一种改进的粒子群算法(optimized particle swarm optimization,oPSO)。新模型增加了对任务类型及任务间迁移成本、计算单元类型及其运行成本等特性的描述。通过分析任务调度问题的需求,制定了oPSO算法的编解码方案,设定了算法各个关键部分参数及计算方法,并解决了粒子群算法(PSO)在任务调度前期收敛速度过快、后期易陷入局部最优的问题。在不同任务规模下分别对遗传算法(GA)、PSO以及oPSO算法进行调度仿真对比,当IP核数目为100左右时,oPSO算法较GA算法和PSO算法运行时间至少缩短10%,系统功耗至少降低15%,实验结果表明:oPSO算法调度效果明显优于其他算法,且各节点上功耗更为均衡,适用于解决任务调度问题。  相似文献   

13.
介绍了一种基于USB2.0协议,选用Wishbone总线接口的主机端控制器IP核的设计与实现.该设计以EHCI作为软硬件接口划分,支持高速(480 Mb/s)的数据传输,实现了DMA的自主控制、事务的动态调度以及数据跨时钟域的合理开销,达到减少SoC平台处理器的I/O负荷、提高传输效率与系统性能的设计目标;USBIP核的设计与系统软件开发同步进行,有效地验证了硬件功能,最终经FPGA平台与ASIC实现测试达到协议标准,可作为一个通用IP核系统集成.  相似文献   

14.
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。  相似文献   

15.
关键路径的确定与优化在异构多核系统的任务调度算法中占据重要地位。为解决异构多核系统调度算法常因估算关键路径时的参数选择存在局限而导致的估算结果偏差过大,调度结果不佳的问题,文章提出一种在参数计算时考虑资源约束的异构多核任务复制调度算法(task-duplication scheduling algorithm with resource constraints, TDSA-RC)。该算法通过改进布局优化方式,扩大其适用范围;同时通过筛除冗余任务,减少任务复制过程中产生的不必要的计算。通过随机生成的任务图和3种实际应用的任务图调度对比实验表明,该算法能有效缩短并行任务的调度长度,与TDCA(task-duplication based clustering algorithm)算法相比,平均性能可提升12.08%,适合处理规模大、层级少且join节点占比多的并行任务。  相似文献   

16.
现有科学工作流调度研究较少考虑计算资源的多道程序设计,难以同时实现有效的容器共享并优化任务并行度与资源利用率。为了解决以上难点,文章提出了一种分布式多vCPU环境中基于容器技术的分段式工作流调度策略。该策略通过分段调度方法,降低启发式算法的解空间大小,使用带遗传算子的自适应离散粒子群优化算法(ADPSOGA),在设备使用成本的约束下优化各个工作流的完成时间,并制定一种容器与设备间的动态伸缩方案,实现容器的复用并解决单个设备中任务并行时的资源争用问题。结果表明:ADPSOGA的性能优于其他同类启发式算法,并且分段调度方法与容器伸缩方案在工作流调度方面表现出良好的性能,能很好地适应因任务并行度增加所带来的影响。  相似文献   

17.
针对多核编程模型运行时环境易造成处理器核资源竞争加剧以及可扩展性较差等弊端,基于动态反馈控制思想,将资源分配、运行时控制、任务执行视为有机整体,提出了自适应协同调度模型ACSM.ACSM采用集中式与分布式相结合的协同机制,动态调节处理器核资源在不同应用负载间及其内部的分配与管理.ACSM的优势在于充分体现了多核编程模型良好的可编程性和可移植性,消除了传统多核运行时环境显式指定核数的弊端,增强了处理器核资源分配的高效性和自适应性.实验结果表明,ACSM在提高多核编程模型易用性的同时,减少了系统处理器核资源的不良竞争,提升了系统的整体性能和资源利用率.与仅依赖多核编程模型运行时环境的调度算法相比,ACSM使应用程序的运行时间缩短了近50%,并且随着应用程序数量的增加效果更加显著.  相似文献   

18.
基于消息传递的编程模型设计了一款片上多核系统,该系统在4SymboltB@4的2D mesh片上网络中集成了16个小型RISC处理器,这些处理器各自使用一个可配置的私有SRAM用于指令和数据的存储,而处理器间的数据包通信则通过虫孔交换的路由器及网络接口实现.此外,在软件层面实现了基本的数据传输与进程同步接口,并采用SPMD并行模式设计了3个应用案例,以对该系统进行验证和性能分析.仿真及FPGA测试结果表明,对于整数矩阵乘法、浮点FFT计算以及基于灰度图像的模板匹配问题,该多核系统的并行加速比最高可分别达到7.6,10.5和15.9.  相似文献   

19.
为了提高嵌入式多媒体应用的实时性能,提出了一种最大化数据并行访问以便充分发挥CPU处理能力的片上存储器分配方法。CPU指令的并行数据访问以及CPU与直接存储器存取(DM A)的并行访问都可能导致冲突,片外存储器的慢速存取也会导致CPU流水线停止。根据CPU处理数据的需要分配片上存储器,采用DM A动态地将数据转移到片上,减小存取慢速片外存储器带来的延时;充分利用CPU多条数据总线并行访问多个存储器块的能力和双端口存储器(DARAM)一个周期两次访问的能力,减小存储器带宽的限制。实验结果表明:合理分配存储器,程序执行时间最多减少了48%。存储器分配该方法简单,易于实现。  相似文献   

20.
针对云计算环境中Hadoop平台由于节点计算能力差异、多样混合负载共存等原因而出现的性能不佳的问题,提出一种采用资源划分的资源许可方法。该方法在云计算环境下通过减少资源浪费或负载过重等情况的出现来提高系统性能。该方法采集资源信息并推测任务资源需求,根据可用计算资源和任务需求动态划分、调度资源;使用与资源无耦合的资源许可启动任务并控制任务数量调节资源利用率以适应云环境。使用该方法对比公平调度器在国家高性能计算中心(西安)进行测试发现:单作业在资源竞争环境中优于公平调度器的静态结果;混合负载在3种测试环境中完成时间分别平均减少了27.5%、37.1%和50.98%,性能显著提升。实验结果表明,该方法可以适应负载资源需求和可用计算资源的变化,灵活划分计算资源,解决Hadoop在云环境中的性能不佳问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号