首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
异构环境下的空间分析并行映射策略   总被引:1,自引:0,他引:1  
针对传统的地图代数局部算子实现方法用于海量栅格数据计算时效率低下的问题,从串行算法的并行化映射、计算机图形处理器资源的自适应参数调整等角度分析地图代数空间并行算法的实现机制,采用数据分割策略对空间分析算子的计算速度进行分析,将空间分析算子分割成若干子任务,并映射到图形处理器(GPU)中进行运算,通过运算与数据传输的重叠隐藏数据传输时间,借助异构环境计算能力的强大而加速算子的运算.理论分析与实验结果表明,该策略能够明显提高空间分析算子的运算速度.  相似文献   

2.
提出一种异构多核处理器工程科学计算加速协处理器(ESCA)体系结构,此体系结构可作为协处理器对计算密集型的应用提供计算加速.基于该ESCA协处理器的混合计算系统设计并行静态图像JPEG压缩编码算法的映射与实现,并在四核ESCA处理器原型上对JPEG压缩编码算法进行了性能评测.实验结果表明:针对计算密集型的应用,所提出的ESCA处理器具有良好的计算加速效果.  相似文献   

3.
智能设备高昂的设计费用和庞大的计算资源需求成为在便携式、低功耗设备上实现深度学习算法及其应用的主要障碍.文中基于树莓派平台,借助Intel的视频处理器(V PU)低功耗加速模块,设计并实现了基于残差特征提取模块CNN模型的实时人脸检测系统.结果表明,相较于单纯使用树莓派CPU进行计算,文中方法在视频流中检测人脸和人脸关键点提取的实验中分别实现了18.62倍和17.46倍的加速,在便携式设备中实现快速、实时、在线的人脸检测和特征点提取成为现实,同时为使用便携式、低功耗设备运行深度学习算法提供了一种确实可行的方案.  相似文献   

4.
在频率波数域实现三维叠前深度偏移   总被引:1,自引:1,他引:0  
叠前深度偏移是理想的改善复杂地区和强横向速度变化的地震资料成像技术,对于复杂变速介质成像,常用的时间域成像方法已不能满足实际需要,必须借助于深度域成像方法,特别是三维地震叠前深度偏移方法.推导了三维叠前深度波场延拓算子公式,指出其实质含义,并通过模型测试进行了验证,介绍了一种三维叠前深度偏移的实现方法,最后进行了偏移算子的误差分析.理论分析与实例计算表明,该计算方法是合理和有效的.  相似文献   

5.
针对高性能计算中非规则寻址模式任务的加速需求,文章设计了一种指令级动态可重构浮点处理器(dynamically reconfigurable floating-point processor, DRFP),区别于传统的可重构处理器,引入一种基于融合指令的实现方式,使得该处理器兼具动态重构和乱序执行能力。该处理器作为主要计算核心集成于一款异构多核系统芯片,并在Xilinx Ultrascale系列xcvu440的FPGA芯片上进行了原型验证,系统可以稳定工作在120 MHz。实验结果表明,该处理器在兼顾高性能的同时相较于已有工作能更好地适应非规则运算,且性能提高近3倍。  相似文献   

6.
利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。  相似文献   

7.
利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。  相似文献   

8.
设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减轻应用移植给使用者带来的负担.使用通信延迟、带宽测试程序及实际应用程序对其进行了测试,测试结果表明设计实现的MPI在保持高效通信性能的同时,也有效地利用了SPE,发挥了CellBE处理器强大的计算性能.  相似文献   

9.
孔峻 《科技资讯》2008,(34):16-18
嵌入式处理器不仅广泛应用于各种智能仪器中,而且作为控制接口板卡插入到PC机,形成了异构的多处理器系统。本文主要研究异构处理器间的缓冲技术,并针对PC-ARM之间的通讯问题,提出采用双端口RAM作为异构处理器间的缓冲机制。在阐述了双端口RAM的基本原理和双端口RAM的总线争用解决方案后,提出了异构处理器间双端口RAM缓冲模型,并给出了成功应用案例。在应用案例中,给出了双端口RAM缓冲区的区域划分方法——循环缓冲区法和二级缓冲——FIFO对列实现技术。  相似文献   

10.
一种考虑环境作用的协同免疫遗传算法   总被引:3,自引:0,他引:3  
在综合考虑了环境对生物进化的影响、免疫算法的结构以及遗传算法部分算子的基础上,提出一种考虑环境作用的协同免疫遗传算法(ESIGA),以实现提高算法搜索速度和全局搜索能力的目标.在该算法中,设计了克隆环境演化算子和自适应探索算子,并构造了3个子种群协同进化以发挥克隆环境演化算子的影响,从而提高算法的全局搜索能力.引入的自适应探索算子和克隆环境演化算子,使算法具备了一定的学习能力,可加速搜索和防止早熟.构建的主种群和协同种群相互影响,使得算法对环境具有改良能力,加强了克隆环境演化算子的性能,而精英种群则加强了算法在优质个体邻域的搜索能力.采用13个常用无约束优化问题测试函数对算法做了检验,测试数据表明:ESIGA算法与正交遗传算法相比,其搜索速度要快于正交遗传算法1~2倍,并能够处理1 000维的高维优化问题.  相似文献   

11.
深度捕食二次梯度加速差分进化算法   总被引:1,自引:0,他引:1  
针对标准差分进化算法自身存在的贪婪而易于早熟的问题,提出一种深度捕食二次梯度加速差分进化算法.混合算法首先把整个搜索空间作为整体进行广泛搜索,并预设一个梯度加速触发参数,对种群中较优的个体采用基于梯度加速的局部搜索,使算法能够快速收敛到全局最优值.同时为了保持种群的多样性,设计了一种差分变异算子.通过与已有的改进算法仿真对比可知:该算法能够有效地跳出局部极值,防止算法早熟,且收敛速度快.结合相关文献对深度捕食二次梯度加速差分进化算法的工程应用进行了仿真研究,仿真结果验证了该方法的可行性和有效性.  相似文献   

12.
提出了一种基于CKCore RISC处理器和Spock DSP处理器的异构双核系统芯片平台(GEM-SoC).该平台通过提供可配的功能IP模块和灵活完善的软硬件架构,使得异构双核SoC设计更为准确高效.实验证明,GEM-SoC平台可以有效地加快Ogg解码应用的双核软件程序设计开发.原型芯片在37.68 MHz时钟频率时运行,即可实现实时Ogg音频解码播放,具有较好的功耗性能比.  相似文献   

13.
研究一种低功耗语音降噪处理器,提高传声器信噪比和智能化程度.该降噪处理器采用专用指令集处理器内核+硬件加速器的异构多核架构,兼顾低功耗、运算效率和灵活性.专用指令集处理器内核为24-bit位宽、多级流水、双哈佛存储结构,定制专用语音加速指令和硬件,提升运算效率.硬件加速器负责密集、规整的时域/频域变换操作,采用可配置结构,保证硬件灵活性,并通过中断和共享存储器机制与专用指令集处理器内核通信.基于SMIC 130nm工艺完成该降噪处理器芯片设计,结果显示处理器完成语音降噪任务,背景噪声下降约10dB,平均电流仅206μA.  相似文献   

14.
为了克服传统的"驾驶员-汽车-道路"闭环汽车驾驶模式中存在的缺点,提高车辆行驶安全,提出一种基于ARM+DSP架构的嵌入式实时车道线检测系统.介绍该系统的总体架构和异构双核处理器的数据处理流程及系统核心算法的实现和优化方法.同时提出了针对DM6446异构双核开发平台的系统实现方案,并通过实验验证了系统的有效性.  相似文献   

15.
在分析触摸屏嵌入式系统工作原理的基础上,选择了基于ARM架构的以Samsung公司的S3C44B0X处理器为核心的博创科技UP-NETARM3000开发板作为开发平台,以μC/OS-Ⅱ作为嵌入式操作系统,为了加速程序开发的进程,提出了一种边写程序边用Petri网描述的方法,实现了一个计算器应用实例,并进行了测试.  相似文献   

16.
单线程性能是处理器设计中需要考虑的重要因素.基于T2设计并实现了单线程双发射结构,以开发单线程的指令级并行、提高单线程性能;并对此结构搭建了完备的验证平台,通过加速比对改善前后的两种结构进行了性能评估,评估结果表明,本文设计并实现的单线程双发射结构能够有效提高单线程的性能.  相似文献   

17.
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍.  相似文献   

18.
对4种常用的图像边缘检测算子的特点进行了分析和比较。在此基础上,针对LOG算子存在的一些缺点,运用选取阈值的方法,将Sobel算子和LOG算子结合起来,提出了一种新的图像边缘检测方法。基于VC++语言,研究了该方法的设计并得以实现。实验结果表明,相对于单纯的LOG算子,该方法更具有实用性和有效性。  相似文献   

19.
基于CORBA规范的分布式对象计算与互操作技术,因其适应复杂的异构环境,能有效实现不同软硬件平台、网络环境的集成而日益成为业界研究的热点.本文所给出的机群远程调试器的设计与实现方案,正是利用了CORBA良好的分布对象计算技术以及Java语言的平台无关性,较好地解决了因机群系统环境差异给远程调试器的设计与实现带来的诸多问题.该设计和实现方案具有较好的可移植性与可扩展性.目前该机群调试器已完成并成为“曙光3000客户端集成环境与工具——DUET”中的重要组成部分运行于国产曙光3000并行机上,同时它的另一个实现版本也已成功地移植到了国产神威机群系统上.  相似文献   

20.
基于multi-agent的分布式专家系统原理及应用   总被引:3,自引:2,他引:1  
基于Intemet/Intranet松耦合环境设计分布式选矿专家系统,采用面向agent(智能体)的系统开发方法和multi-agent分布协作求解模式,采用异构异质agent,即agent可建构于广域网、局域网和单处理器紧耦合模式,且求解agent可以是基于符号系统、神经网络、遗传算法等agent的协作.此外,建立了统一的知识库标准,基于关系数据模式表征了传统的规则、框架、语义网络及谓词逻辑等知识表示方法.其中,基于数据库引导及搜索技术实现了正向推理机制及反向推理机制,易于agent之间知识的传输,大大提高了通信效率;基于DCOM技术,以C++构建框架类加速了agent的实现.以矿石可选性预测求解为例,实现了多agent协作求解的仿真系统,较好地验证了所提出的理论模型及框架.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号