首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
采用计算任务量大小的方法,解决了在紧嵌套循环自动并行化过程中存在循环并行化的并行粒度确定问题以及循环自动并行化中数据划分的数据访问局部性问题,在多核系统中实现了紧嵌套循环自动并行化时的数据访问局部性方案和并行化方法,从而构造了一个基于任务量划分的循环自动并行化模型,降低了程序自动并行化中小任务量并行带来的开销.  相似文献   

2.
介绍PAROII采用的哈希轮转 (Hash -Round -Robin)数据划分方法以及基于该划分方法的并行RDBn树 ,着重、详细地讨论了基于该树的并行连接算法 ,该算法充分利用了数据的已有分布、Bn 树的特性、叶结合点有序连接、哈希轮转划分的特性 ,这些特性减少了系统的额外消耗 ,提高了并行连接的效率  相似文献   

3.
在多核环境下,对文件压缩与解压并行算法进行研究,提出一种基于OpenMP的文件压缩处理并行设计模型。该模型由查找热点代码、并行化分析、并行建模、实现、调试等步骤组成。以动态哈夫曼算法为研究算法,将多核压缩处理并行设计模型应用到文件压缩与解压中。并在文件并行处理过程中,与数据分解法相结合对数据文件进行分割,将分解后的数据由主线程分给多个处理器上的多个子线程来并行处理,以此提高多核处理器的利用率并提高文件压缩效率。最后通过实验模拟验证模型以及算法性能。研究结果表明:在八核处理器下通过对文本文件、图像文件和音频文件等多种不同类型文件进行压缩解压试验,验证了动态Huffman并行算法与串行算法相比其加速比可以达到1.5~8.0倍,性能也得到很大提高。  相似文献   

4.
针对P-BWT精确匹配算法存在只支持短串查询并且只能工作在单处理器上的问题,提出了一个多核并行的支持任意查询长度的精确查询算法.改进了P-BWT索引上的查询过程,当一个查询串跨越了多个数据分片时,首先在其匹配的最后一个分片上查询,然后依次在前面分片上进行验证.进一步提出了一个多核并行查询算法来减少搜索和验证过程的迭代次数.实验结果表明,所述算法可以高效并行地完成子串匹配任务.  相似文献   

5.
介绍PAROⅡ采用哈希轮转(Hash-Round-Robin)数据划分方法以及基于该划分方法的并行RDB^n树,着重,详细地讨论了基于该树的并行连接算法,该算法充分利用了数据的已有分布、B^n树的特性、叶结合点有序连接、哈希轮转划分的特性,这些特性减少了系统的额外消耗,提高了并行连接的效率。  相似文献   

6.
从划分聚类要求的时间和空间上看,传统的串行算法已很难适应海量的数据,有必要研发高性能、可扩展的并行算法来解决这一问题,基于一些主要的并行划分聚类算法所存在的问题,提出了在机群系统上采取数据并行策略设计的并行划分聚类算法思想。  相似文献   

7.
提出了并行数据库系统的哈希轮转(Hash-Round-Robin)数据划分方法以及其于该划分方法的并行记录分布B^n树,给出了基于该树的并行连接算法,分析了该算法的效率,这种连接算法充分利用了数据的已有分布及B^n树的特性,还利用了哈希轮转划分的特性,提高了并行连接的效率,该算法已经在自主研制的并行数据库管理系统PAROⅡ中得到实现。  相似文献   

8.
在探讨并行系统环境中影响实时事务执行时间3个因素:工作负载、数据的获取以及事务调度等的基础上。利用启发策略并采用新的数据迁徙及事务迁徙技术,提出了一种并行实时数据库动态平衡算法.在PRTS系统上实现了该算法,从加速比和实时事务执行成功率两个参数上论证了该算法的可行性和优越性.  相似文献   

9.
通用并行CRC计算原理及其硬件实现方法   总被引:8,自引:0,他引:8  
通用并行CRC算法及其硬件实现方法 ,适用于不同的CRC生成多项式和不同的并行数据长度 ,与目前常用的查表法相比较 ,不需要存放余数表的高速存储器 ,减少了时延 ,并可以通过增加并行数据长度的方法来降低高速数据传送系统的CRC运算时钟频率 .  相似文献   

10.
基于多核的批处理RSA的并行加速方法   总被引:3,自引:1,他引:2  
为了改善RSA算法解密和签名的性能,Fiat提出了batch RSA算法,但效果并不显著.针对现有计算机多核的特点,对batch RSA算法进行并行优化,使其在解密和签名时的速度得到大幅度提升,实验表明并行优化后平均加速比可达到4.75.  相似文献   

11.
对于具有共享缓存结构的多核处理器,存在并行应用对共享缓存冲突访问导致性能下降的现象.为合理地分配共享缓存以有效地解决这类问题,提出了一种共享缓存分配方法,通过将并行应用对共享缓存访问未命中的情况进行分类与追踪,并根据建立的性能增益模型在行的粒度上进行动态地分配共享缓存,使系统的整体性能得到改善.实验结果表明,新算法能合...  相似文献   

12.
目的设计并实现一种基于数据划分的矩阵乘法的并行算法,将划分的数据交给多个线程同时执行,充分挖掘计算机的性能。方法根据OpenMP并行编程的基本风格,并在Visual Studio2005上搭建能够实现并行编程的环境平台。结果并行算法所花费的时间较非并行算法短。结论通过与非并行矩阵乘法性能进行比较,验证该算法可以有效地利用多核处理器的优势。  相似文献   

13.
由于多核处理器争用共享缓存导致的不确定性为实时系统带来极大的挑战.为解决这个问题,现代处理器引入了缓存划分技术,通过隔离处理器核对缓存的访问从而提高了时间可预测性.但是,这种隔离技术可能导致实时任务因缓存分区的数量不足而被阻塞,而传统的实时调度算法与分析方法无法有效应对这种情况.因此,提出了支持缓存划分的可抢占全局最早截止期优先(EDF)实时调度算法gEDFca,并结合最新的缓存敏感调度理论针对这种调度算法进行了可调度性分析,提出了一种基于线性规划的可调度性判定条件.还提出了一种具有线性时间复杂度的优化算法,进一步提高了分析方法的性能.随机生成任务的仿真实验表明,提出的可调度性判定方法具有较高的效率.同时,优化算法提高了算法可调度性.  相似文献   

14.
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍.  相似文献   

15.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

16.
为了提高混合交通微观仿真的运行速度,基于多核并行计算技术构建了一个混合交通微观仿真平台.文中首先从平台功能结构、并行混合交通微观仿真流程设计与实现两个方面对平台进行介绍;其次,设计并实现了该仿真平台的关键并行算法,包括初始路网分割算法、车辆穿越边界算法及动态负载平衡算法;最后,通过仿真实验验证了多核并行计算技术能够大大提高混合交通微观仿真的运行效率.  相似文献   

17.
介绍了一种基于Open MP的多核并行程序设计方法,并使用此方法实现了对基于隐马尔可夫模型的Web文本挖掘程序的并行化改造.实验证明重新设计的多核并行程序相比于原有串行程序在多核微机系统上的运行时间大大减少、程序整体性能得到明显提升.  相似文献   

18.
多核处理器凭借着低功耗高性能的优势占据了市场.针对多核平台上并行实时任务,提出局部与全局EDF相结合的调度算法,其中任务的截止期划分、执行预算以及迁移时机由所设计的处理器带宽预留服务器决定.同时,提出了内存分配算法,该算法能够更好地为并行实时任务管理内存资源.实验结果表明新的调度算法具有更高的调度成功率.另外,在内存资源竞争的前提下,内存分配算法可以保证并行任务的实时性与系统稳定性.  相似文献   

19.
研究了深亚微米和3D条件下的cache访问延迟的设计和模拟技术.对不同容量、不同关联度、不同技术的cache进行了模拟.实验结果显示,深亚微米条件下,互联网络成为影响cache访问延迟的重要因素,40 nm工艺下它可占cache总访问延迟的61.1%;tag比较器的延迟对cache访问延迟的影响可达9.5%.但后者并未得到已有模型的重视.鉴于此,对已有的cache访问延迟模型进行了改进.基于3D条件下多核处理器最后一级大容量cache(L3C)的容量不断增长的趋势,eDRAM在功耗和面积上的优势使其更具吸引力.模拟结果显示,在容量为1 MB, 4 MB及大于16 MB的L3C设计下,相同容量的eDRAM cache延迟比SRAM cache小,差值为8.1%(1 MB)至53.5%(512 MB).实验结果显示,未来3D多核处理器设计中eDRAM是设计L3C的更佳选择.  相似文献   

20.
图像匹配是图像处理领域的一项重要技术。针对无纸化阅卷系统的主观题评阅,提出了一种结合自适应阈值SSDA(序贯相似性检测算法)和多核多线程并行技术的图像匹配方法,由电脑自动完成主观题空白题的评阅,以提高评阅工作效率。通过螺旋分配多核处理器资源,在多核处理器的每个核心上并行运行SSDA图像匹配,按行列顺序处理待匹配区域,每个核心的匹配结果不断更新阈值,达到提高匹配速度的目的。最后进行实验仿真,可见,与传统的串行算法相比较,本算法能够满足空白题识别中图像匹配的实时性要求,并且有较好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号