首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了缩短网格中数据并行流水线在吞吐率受限下的延迟,提出了一种优化任务指派的算法.在一个流水线中,每个任务都可以是一个数据并行程序.当多个任务被指派到同一个并行系统时,假设每个任务排他地使用一组处理机.根据优化目的,优化过程可分成连续的两个阶段,即提高吞吐率和缩短吞吐率受限下的延迟.对不同的优化阶段,用不同的启发式算法确定一个并行系统中每个任务的处理机数.改派任一任务都会使流水线的性能发生变化,性能提高的幅度被称为任务优先级.通过重复改派优先级最高的任务,流水线的性能可迅速提高,这在仿真实验中已得到了证实.  相似文献   

2.
为取得网格中流水式计算的高吞吐率,提出一种任务指派算法X max min.在一个流水线中,任务彼此是并行的,且每个任务本身是可并行化的.当多个任务被指派到同一个并行系统时,通过最小化任务计算成本的最大值确定每个任务分得处理机的个数.任务用于收发数据集的通信成本依赖其他任务的指派,故当相关任务的指派未完成时,需要在任务通信成本中引入均值估计.任务响应时间是计算成本和通信成本之和,它是任务指派的函数.用max min算法确定任务指派,可有效降低任务响应时间的最大值,从而使流水线的吞吐率得到提高.仿真实验表明,X max min算法使流水线取得的吞吐率与复杂的Taura算法相当.  相似文献   

3.
通过对索引表和概率间隔区间更新条件的分析,提出了一种JPEG2000算术编码器的部分并行优化算法.在连续编码两个数据对时,通过预测间隔区间的变化,可以一次完成索引表和间隔区间的更新,从而减小了编码数据的关联性,实现了算术编码器的部分并行编码.设计了基于3级流水线的JPEG2000算术编码器,并通过了FPGA验证.试验结果表明,该算法平均每个时钟编码1.58对数据,比每个时钟编码1对数据的普通算法,编码效率提高了58%.  相似文献   

4.
研究了JPEG2000位平面编码器的算法和全并行电路结构.以单列样本点作为数据单元,分析了通道编码过程中数据的关联性.只需缓存前一列样本点的显著性状态信息,并读取当前列和后续2列的原始数据,便可在一个编码窗口内完成当前列的通道和位平面并行编码;每次仅需读入一列新的数据,即可实现编码循环.据此设计了三级流水线的全并行电路...  相似文献   

5.
提出了一种基于并行的碰撞检测算法,主要采用并行算法中的分治策略,建立环境中每个物体的平衡包围盒树,通过遍历每两棵包围盒树,形成对一任务树的遍历,并将所有任务树的遍历平均分配到每个处理器,然后采用并行算法中的流水线技术,通过划分进程来遍历任务树,从而加速碰撞检测算法,同时在进程中也应用了多线程技术,因而能运行于单处理机和多处理机上。  相似文献   

6.
以在现场可编程门阵列(FPGA)上部署卷积神经网络为背景,提出了卷积神经网络在硬件上进行并行加速的方案.主要是通过分析卷积神经网络的结构特点,对数据的存储、读取、搬移以流水式的方式进行,对卷积神经网络中的每一层内的卷积运算单元进行展开,加速乘加操作. 基于FPGA特有的并行化结构和流水线的处理方式可以很好地提升运算效率,从对ciafr-10数据集的物体分类结果看,在不损失正确率的前提下,当时钟工作在800 MHz时,相较于中端的Intel处理器,可实现4倍左右的加速.卷积神经网络通过循环展开并行处理以及多级流水线的处理方式,可以加速卷积神经网络的前向传播,适合于实际工程任务中的需要.  相似文献   

7.
DM数据库中的数据规模大且维度复杂,为了在有限的条件下尽可能满足用户对DM数据库功能的需求,提出一种新的DM数据库中大规模数据可扩展并行算法。不可扩展并行算法包括朴素并行、典型并行与逻辑并行三种处理规则,新算法将这三种处理规则结合起来实现数据自主运算,令每个运算节点均拥有三种处理模式,采用有向图将大规模数据划分为局部数据,并分配到处理器上,通过设置数据处理优先等级,完成流水线形式的数据处理过程,赋予并行算法强大的可扩展性。实验结果表明,新算法具有较强的可扩展性,负债均衡能力强。  相似文献   

8.
MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.  相似文献   

9.
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接.  相似文献   

10.
本文介绍了一种多通道全并行实时数据采集系统的设计原理。该系统中的每个采集通道由信号调理、A/D转换器和异步双口RAM组成,采用USB作为数据上传接口,使用复杂可编程逻辑阵列CPLD作为控制核心,将数据采集、缓冲及上传模块组织成流水线的构架。各个模块并行同步执行,从而保证采样数据的连续性,并使整个系统高速运行。实际测试显示该系统具有很好的稳定性和可靠性。  相似文献   

11.
提出了一个MPEG-4变长码并行解码器的硬件设计,采用桶形移位器、基于PLA的并行解码算法等方法使得每个时钟周期解一个变长码码字,通过将码表改造、分割长码表为几个短码表并行查表、使用流水线技术等措施减少关键路径的延时以提高工作频率,保证了MPEG-4 ASP @L5格式码流的实时解码。  相似文献   

12.
一种针对嵌入式处理器的动态调度控制器设计   总被引:1,自引:0,他引:1  
针对嵌入式处理器数据相关问题,设计了一种动态调度控制器.与传统的停流水线控制器相比,只增加一个单指令缓冲器及一些判断逻辑,能有效降低数据相关造成的影响.在FFT及FIR实验中,流水线冲突分别减少75%和62.5%,处理器面积仅增加8.2%.  相似文献   

13.
针对粒子滤波算法在重采样环节因粒子交互而不能充分并行处理的问题,提出了基于图形处理器(GPU)的并行骨干粒子群优化粒子滤波算法(BBPSO-PF).首先利用骨干粒子群算法具有易并行的特点优化粒子滤波算法重采样环节,从算法结构上提高粒子滤波算法的并行度.然后利用GPU的多线程架构并行处理每个粒子群的数据,每个线程负责一个粒子群,使粒子群之间得到并行化处理,解决粒子滤波重采样因粒子交互而不能充分并行的缺点.最后利用GPU中对齐与合并的内存访问原则,给粒子群设计高效的数据存储结构,降低内存访问事务,提高粒子群的数据存取速度,进一步提高算法实时性.该方法在保证算法精度前提下明显提高了算法的实时性.  相似文献   

14.
GPU是图形加速卡的处理单元,具有大量的并行流水线,通常,其浮点运算能力是同代的CPU的10倍以上。本文介绍了一种尚在完善中的利用GPU强大的浮点运算能力来加速通用科学计算的编程模型CUDA。CUDA是用于GPU计算的开发环境,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。  相似文献   

15.
化学驱软件中化学平衡的并行计算   总被引:3,自引:0,他引:3  
为了探索化学驱油藏数值模拟软件高效的整体并行化方案 ,对 DQCHEM2 .0软件中化学平衡计算部分进行并行化改造 ,设计了两种区域分解并行化的方式。一种方式是将整个区域按 CPU数进行分解 ,每个 CPU计算一个子域 ;另一种方式是按照额定的子域中网格单元的数量进行分解 ,每个 CPU将计算多个子域。比较而言 ,前者数据传输量少 ,而后者有利于负载平衡。在并行程序中 ,采用 MPI消息传递库实现数据的传输。测试结果显示了较好的局部并行效率。 8个 CPU的加速比达到 6.4。对测试数据的分析表明 ,两种区域分解方法适用于不同的情况  相似文献   

16.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

17.
利用Hadoop的并行式处理技术改进了遗传算法.通过将种群划分为多个子种群,并将每个子种群由一个单一的MapReduce任务来处理,实现了遗传算法的并行化.通过解决OneMax问题的一系列实验,验证了基于Hadoop的遗传算法提高了运行效率与正确性.  相似文献   

18.
在许多机器学习问题中,往往需要研究高维数据中各个特征之间的统计相关性.稀疏高斯图模型作为解决这一问题的有效方法之一,广泛应用于数据挖掘、生物信息、金融分析等应用问题中.由于模型参数量是数据维度的平方量级,基于高维数据的稀疏高斯图模型的参数估计一直是统计机器学习研究中的挑战性问题之一.提出了一种新颖的基于坐标下降优化的稀疏高斯图模型并行估计算法,其核心思想是根据高斯图模型结构估计等价于每个变量的稀疏近邻选择这一基本结论,采用坐标下降来求解每个近邻选择子问题.通过将样本矩阵进行分布式存储,在MPI(Message-Passing Interface)框架下实现了这些子问题的并行求解.实验结果表明,该算法具有良好的并行运算性能,在保证结构估计精度的同时,能够大幅度提升运算速度.  相似文献   

19.
提出了一种通过McBSP接口互联的双处理器(DSP)并行处理系统.采用双DSP流水线体系结构,其中一个DSP负责进行各回路电压电流的采集、滤波、迭代计算,另一个DSP负责人机交互、远程通信与实时控制,二者并行工作可显著提高系统的处理能力.以此并行计算机结构为核心,设计实现了高压电力无功补偿(SVC)信号处理系统.  相似文献   

20.
提出一种适用于并行安全网关流水线模型中共享数据缓冲区操作的无锁队列算法.与其他类似算法比较,该算法采用链表结构组织队列数据,避免了采用循环数组结构引起的缓冲区长度限制和内存浪费的问题;与通用的链表队列无锁算法比较,算法实现更为简洁,执行效率更高.证明了算法具有线性化和非阻塞特性.通过模拟试验,验证了算法在理想环境和各种实际应用环境中都具有较好的性能指标.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号