期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

WindowsNT环境下基于多线程的面向对象应用系统设计 总被引：3，自引：0，他引：3

王成耀李秀山《北京科技大学学报》1997,19(5):485-489,494

以ＷｉｎｄｏｗｓＮＴ为背景，提出了设计我线程进程与实现多进程启停同步的面向对象的表驱动方法，给出了１种通用的实现框架，基于该框架设计多任务应用，可充分利用系统资源，实现多个任务的并发招待。相似文献

2.

杨晓奇郑启龙陈国良《中国科学技术大学学报》2009,39(11)

虽然OpenMP是多核体系结构上的流行多线程并行编程模型,但是OpenMP编译器不检查数据相关性、访问冲突和其他可能导致程序错误执行的问题,这些问题传统上完全依赖用户使用锁机制来保证程序的正确性.锁机制的并行编程中存在并行程序效率和并行编程难度的矛盾.粒度大的锁机制编程容易,可应用的并行性挖掘比较差;粒度小的锁机制应用的并行性挖掘较好,可编程难度大,容易带来优先权倒置、死锁和锁护航等问题.通过动态二进制插桩技术,扩充OpenMP支持事务存储执行功能,可有效缓解OpenMP并行编程中并行程序效率和并行编程难度之间矛盾. 相似文献

3.

基于多核系统的隐马尔可夫模型并行算法研究

龚向坚邹腊梅《南华大学学报(自然科学版)》2018,32(1):73-77

介绍了一种基于Open MP的多核并行程序设计方法,并使用此方法实现了对基于隐马尔可夫模型的Web文本挖掘程序的并行化改造.实验证明重新设计的多核并行程序相比于原有串行程序在多核微机系统上的运行时间大大减少、程序整体性能得到明显提升. 相似文献

4.

基于OpenMP的湍流场中颗粒碰撞聚合的并行数值模拟

雷洪赫冀成《东北大学学报(自然科学版)》2009,30(11):1602-1605

为了快速求解10000个粒子的湍流碰撞聚合问题,采用OpenMP对Smoluchowski方程的FORTRAN求解程序进行了并行处理.数值结果表明:在不改变串行程序结构的情况下,仅对循环体部分进行并行处理,并行效率可高达80%,且串行程序与并行程序的计算结果完全吻合.对于大计算量循环体的并行计算,采用全部处理器进行并行计算时耗时最小.但是对于小计算量循环体的并行计算,采用全部处理器进行并行计算时耗时不一定最小. 相似文献

5.

多线程技术在基于HALCON的AOI中的应用

陈涛范彦斌《佛山科学技术学院学报(自然科学版)》2011,(2):45-48

电子封装不断朝微型化方向发展,传统的印刷电路板(PCB)焊点检测方法已越来越难以满足生产的要求.基于机器视觉的自动光学检测(AOI)系统可对PCB焊点进行统一、可靠的快速检查,其检测速度是一个非常关键的问题.比较了单线程和多线程技术在AOI中程序运行的时间,实验表明,多线程技术的运用能使印刷电路板(PCB)的检测速度得... 相似文献

6.

基于OpenMP与VALU硬件加速的表面积分方程矩量法混合并行求解技术 总被引：1，自引：0，他引：1

刘金波何芒《北京理工大学学报》2014,34(1):50-55

研究在共享内存式计算机架构下,基于OpenMP及矢量算术逻辑单元（VALU）硬件加速的表面积分方程矩量法的混合并行求解技术. 讨论了矩量法并行程序设计中的关键问题,并分析了影响并行计算的主要因素. 针对一些典型散射目标,给出了由混合并行程序得到的雷达散射截面数值结果. 通过对计算数据的对比分析,指出负载平衡及内存读取连续性是影响混合并行效率的关键问题所在. 相似文献

7.

并行程序的一种间歇性性能分析方法

李文渊赵银亮杨锦芳《西安交通大学学报》2003,37(4):364-367

针对并行程序的动态性能分析方法存在的问题，提出了一种大粒度并行程序的新的性能分析方法，即间歇性性能分析方法。该方法采用了基于假设验证模型的瓶颈搜索全局策略，数据复用搜索加速方法以及用户交互式的搜索制导等技术，并应用这种性能分析方法改进了一个已有的并行程序事后性能分析系统。实验表明，该方法具有良好的准确性和易用性。相似文献

8.

多核构架下基于OpenMP 的Huffman压缩算法并行设计

胡荣唐琨皓黄樱《南华大学学报(自然科学版)》2013,27(3):61-65

本文是对多核程序设计的一种探索,在OpenMP模型下以赫夫曼算法为基础设计并行压缩程序.首先对传统的串行程序进行分析,使应用程序开发人员了解程序行为、发现性能瓶颈、明确优化方向.再用OpenMP的基本结构进行并行程序的设计之后,借助开发工具对并行程序进行优化和调试,得到改进方案.然后在双核处理器上分别运行并行程序与串行程序,将两者进行性能上的比较,实验结果证明性能得到很大程度地提高。相似文献

9.

编译器指导的OpenMP Fortran程序数据分布

周虎成黄春赵克佳《南京大学学报(自然科学版)》2005,41(5):562-568

数据分布是提高分布存储系统上OpenMP程序性能的主要方法之一．基于两阶段分析方法，提出了一个面向OpenMP程序的自动数据分布框架及算法并实现其于CCRG OpeMP编译器之中．第一阶段，编译器分析程序中数据访问模式，结合OpenMP程序中DO指导命令提供的任务调度信息，为每次数组访问产生分布方式候选；第二阶段，采用多面体作为迭代空间及数组空间的几何模型，提出自动计算有界多面体中整数点个数以衡量通信量之多少的方法，并且用Ehrhart多项式表示其结果以更便于符号比较和最优分布方式的选取．实验表明，在最终选取的分布方式下，程序性能明显优于其他候选分布方式．相似文献

10.

基于ORC的OpenMP编译器设计与实现

陈永健李建江王生原郑纬民《清华大学学报(自然科学版)》2005,45(1):69-72

该文提出了一种OpenMP翻译技术,旨在提高OpenMP编译系统的性能,并在这种技术基础上构造了一个完整的基于ORC的OpenMP编译系统。系统采用了下面的主要技术来提高性能:1)系统集成在后端的优化编译器中,具有更多的优化机会,并可以采用更为精细的开销模型;2)提出了一种基于指导语句全局嵌套类型的OpenMP翻译技术,可以有效地减少翻译代码的长度,并减少运行时开销。这个OpenMP系统从设计开始,就是为了提供一个合适的编译技术研究平台,具有更好的可控制性、可调试性和丰富的工具支持。相似文献

11.

OpenMP多核技术研究及其在遗传算法中的应用

刘热《沈阳大学学报：自然科学版》2010,22(5):6-10

介绍了OpenMP的并行执行原理和语言规范,重点讨论了OpenMP的循环并行化、迭代相关、数据共享、任务调度等问题,最后使用OpenMP技术优化了遗传算法,并进行了性能的对比. 相似文献

12.

共享内存并行编程最优同步方法的研究 总被引：1，自引：1，他引：0

王凯杨剑锋郭成城于银菠《科学技术与工程》2015,15(8):99-102,110

共享内存并行编程是并行编程开发与研究的标准之一,为了保证程序运行的准确性和线程执行的高效率,对共享内存同步机制的研究具有重要意义。互斥锁与事件同步是Open MP标准中的混合同步机制,而斯坦福大学的Baek等人扩展Open MP提出的面向事务存储的Open TM应用编程接口,事务内存同步是其突出特点。通过研究发现混合同步存在部分互斥锁同步会严重消耗系统空间资源、线程资源利用率有待提高等问题,而事务同步忽视不可恢复行为的影响。因此,提出一种基于共享内存的最优同步方法,即优化后的混合同步和事务内存同步的结合体,实验论证此优化方法的可行性,程序运行更加高效。相似文献

13.

基于扩展同步序列的Java多线程程序可达性测试方法

王艳臣李必信戴君《东南大学学报(自然科学版)》2006,36(6):931-936

为了克服传统可达性方法在测试Java多线程程序时具有的局限性和无法检测事件未同步错误及其引起的同步不当等错误,提出一种基于扩展同步序列的可达性测试方法.该方法包括购建Java多线程程序流图、计算扩展同步序列和确定性测试3部分.实例分析表明,同步扩展同步序列的应用,能够有效地解决上述局限性,Java多线程程序中事件未同步及其引起的同步不当等错误也能得到有效的检测.这种基于扩展同步序列的可达性方法与传统可达性方法相比,具有一定的优越性. 相似文献

14.

MRUCache替换算法平均性能剖析

吕鸣松郭浩关楠《东北大学学报(自然科学版)》2013,34(11):1554-1557

研究了MRU替换算法的平均性能问题.研究结果发现,在一定条件下,MRU的平均性能优于LRU替换算法.针对具有线性访问序列循环体的程序,形式化证明了MRU平均性能优于LRU的成立条件.并采用实时系统时间分析测试集针对不同Cache配置进行实验,验证了MRU平均性能优于LRU这一结果的普遍性.结合本文结果与MRU实时性能的研究结果,可以认为MRU具有优异的平均性能和实时性能. 相似文献

15.

基于插桩技术的并行程序的重演方法

殷贤亮丁宁《华中科技大学学报(自然科学版)》2006,34(9):7-10

提出了一种新的跟踪、重演方法,采用插桩技术在源程序中插入控制程序执行的同步操作,使特定的同步事件序列再现．此方法将同步控制逻辑分散在源程序中,很好地适应了基于消息传递并行系统的运行特征,提高了重演执行的性能,并且不存在缓冲区溢出问题．相似文献

16.

Efficient parallel implementation of the lattice Boltzmann method on large clusters of graphic processing units

QinGang Xiong Bo Li Ji Xu XiaoJian Fang XiaoWei Wang LiMin Wang XianFeng He Wei Ge 《科学通报(英文版)》2012,57(7):707-715

Many-core processors, such as graphic processing units (GPUs), are promising platforms for intrinsic parallel algorithms such as the lattice Boltzmann method (LBM). Although tremendous speedup has been obtained on a single GPU compared with mainstream CPUs, the performance of the LBM for multiple GPUs has not been studied extensively and systematically. In this article, we carry out LBM simulation on a GPU cluster with many nodes, each having multiple Fermi GPUs. Asynchronous execution with CUDA stream functions, OpenMP and non-blocking MPI communication are incorporated to improve efficiency. The algorithm is tested for two-dimensional Couette flow and the results are in good agreement with the analytical solution. For both the oneand two-dimensional decomposition of space, the algorithm performs well as most of the communication time is hidden. Direct numerical simulation of a two-dimensional gas-solid suspension containing more than one million solid particles and one billion gas lattice cells demonstrates the potential of this algorithm in large-scale engineering applications. The algorithm can be directly extended to the three-dimensional decomposition of space and other modeling methods including explicit grid-based methods. 相似文献

17.

PsmArena: Partitioned Shared Memory for NUMA-Awareness in Multithreaded Scientific Applications

《清华大学学报》2021,(3)

The Distributed Shared Memory(DSM) architecture is widely used in today's computer design to mitigate the ever-widening processing-memory gap, and it inevitably exhibits Non-Uniform Memory Access(NUMA) to shared-memory parallel applications. Failure to adapt to the NUMA effect can significantly downgrade application performance, especially on today's manycore platforms with tens to hundreds of cores. However, traditional approaches such as first-touch and memory policy fall short in false page-sharing, fragmentation, or ease of use. In this paper, we propose a partitioned shared-memory approach that allows multithreaded applications to achieve full NUMA-awareness with only minor code changes and develop an accompanying NUMA-aware heap manager which eliminates false page-sharing and minimizes fragmentation. Experiments on a 256-core cc-NUMA computing node show that the proposed approach helps applications to adapt to NUMA with only minor code changes and improves the performance of typical multithreaded scientific applications by up to 4.3 folds with the increased use of cores. 相似文献

18.

混合并行计算在海洋水龄谱模拟中的应用研究

黄伟建周伟李珍《科学技术与工程》2013,13(15):4207-4211,4222

在海洋水龄谱数值模拟过程中应用并行计算技术可以显著提高运算效率。将适用于分布式存储环境的消息传递接口(Message Passing Interface,MPI)与适用于共享存储环境的开放式多处理(Open Multi-Processing,OpenMP)两种并行计算技术相结合,提出了一种适用于海洋水龄谱数值模拟的混合并行计算模型。对比了其与传统的纯MPI方式在多核心(Chip Muti-processors)集群上的运算效率,并在此基础上研究了混合模型的系统资源利用情况以进一步了解其扩展能力。实验结果表明,MPI+OpenMP混合并行水龄谱模型具有更高的运算效率,同时系统资源消耗明显低于纯MPI方式。相似文献

19.

并行处理可视化监测环境 总被引：3，自引：0，他引：3

徐杰锋舒继武郑纬民《清华大学学报(自然科学版)》2003,43(4):532-535

针对并行程序的工程化开发中缺乏有效的并行程序执行过程的可视化、性能监测与分析工具 ,该文设计和实现了一个面向并行程序的集成开发环境的可视化与监测分析工具。该环境集成并行过程的可视化、并行性能监测和评价于一体 ,根据它提供的直观可视信息 ,程序员能形象化地看到并行程序的运行状况 ,了解并行程序的执行性能 ,并通过性能监测分析比较并行算法 ,找出并行算法的性能瓶颈。该工具已应用于胜利油田的油藏数值并行模拟中 ,有效地支持了油藏数值模拟并行程序设计的开发 ,并获得了较好的效果相似文献

20.

基于上下文敏感分析的数据竞争检测方法

下载免费PDF全文

张杨刘欢张冬雯《河北科技大学学报》2020,41(5):416-423

为了提高数据竞争检测过程的准确性,提出了一种基于上下文敏感分析的数据竞争检测方法。使用控制流分析构建上下文敏感的调用图,采用逃逸分析查找出可能发生数据竞争的线程逃逸对象,进行上下文敏感的别名分析以减少误报和漏报,通过发生序关系判断消除由于忽略线程交互而导致的误报。依据该方法,在WALA软件分析框架实现了一个数据竞争检测工具ConRacer,并将该工具与现有的检测工具SRD和RVPredict进行了比较。结果表明,与SRD和RVPredict相比,ConRacer的检测准确度最高,不仅可以有效地检测数据竞争,而且可以降低检测过程中的误报和漏报。通过结合上下文敏感分析技术与传统的静态检测技术,ConRacer提高了检测过程的准确性,对发现并发错误和优化软件性能有一定的参考价值。相似文献