期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞灵琦《华东科技》2021,(2):18-21

RISC-V是什么? RISC-V是基于精简指令集计算原理建立的开放指令集架构.相较于过去的架构,赛昉科技联合创始人兼CEO徐滔介绍道:“RISC-V的特点之一是开源,它不局限于某一家企业,而是所有企业都能参与开发,未来或将形成由Intel、ARM、RISC-V三分天下的格局.” 同时,今年是“十四五”开局年,面对内外... 相似文献

2.

基于RISC-V的IOMMU设计

王镇道 ? 班贵龙胡锦焦旭峰《湖南大学学报(自然科学版)》2024,(6):187-194

在半导体技术受到管控的背景下,实现芯片的完全自主可控已成为现今半导体技术发展的重点.由于RISC-V具有开源、应用广泛的特性,研究RISC-V架构对于我国微处理器的自主可控具有重要研究意义.在微处理器系统中,由于物理资源的有限性和直接访问存储可能潜在危害, DMA访问I/O设备时将会受到诸多限制,从而影响访问性能.目前主流的方法是通过将I/O事务虚拟化,可以很好地解决这一问题.本文首次提出了一种基于RISC-V的I/O虚拟化架构,极大地加速了I/O访问进程,仅花费几个时钟周期就可快速完成I/O设备对内存的DMA请求.本设计将来可以作为IP,集成到RISC-V架构的处理器中,加速I/O设备对内存的访问. 相似文献

3.

关键词

《华东科技》2011,(11):8-9

千万亿次近日随着国家超级计算济南中心正式挂牌．我国首台全部采用国产CPU和系统软件构建的千万亿次计算机系统建成,这标志着我国成为继美国、日本之后第三个能够采用自主中央处理器（CPU）构建千万亿次计算机的国家。相似文献

4.

浅谈模拟器的实现方法

夏兴《科技资讯》2006,(18):9-10

本文从架构上分析了模拟器，把模拟器的模拟分为硬件结构的模拟及硬件行为的模拟。在结构模拟上对cpu、内存、总线、设备的模拟及在行为模拟上对CPU取指令（fetch）、指令解码（decode）、指令执行（execute）行为和外设行为的模拟分别进行了描述。这对实现一个模拟器或阅读模拟器源码会有一定的帮助。相似文献

5.

使用GPU实现快速K近邻搜索算法

魏紫《科技信息》2009,(27):45-45

CUDA（Compute Unified Device Architecture,计算统一设备架构）,是由NVIDIA开发的并行运算架构,它基于C语言的接1：2,提供了利用GPU进行高性能并行计算的方法。本文基于CUDA计算平台,对K近邻算法（KNN算法）的快速实现进行了研究,实验表明,利用NVIDIA GeForce 8800 GTX显示芯片实现的KNN搜索算法比在Penfium43．4GHz的CPU上的实现速度提高了120倍。相似文献

6.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

7.

网络并行计算中的远程直接内存存取实现

乔崇张俊杰武杰刘尉悦王砚方《中国科学技术大学学报》2006,36(3):273-280

提出了一种基于硬件TCP协议（HTCP）的远程直接内存存取（remote direct memory access,RDMA）设计.该设计直接架构在网络的MAC协议层上,因此仅用非常简单的硬件就可实现较高的传输效率,适用于不需要穿越网关的小规模并行计算.实测结果表明使用这种HTCP协议的RDMA网络传输对CPU的占用率比采用普通的TCP协议至少降低一半以上. 相似文献

8.

国家超级计算济南中心揭牌

《山东科学》2011,24(6):14-14

10月27日，国家超级计算济南中心（以下简称为“济南中心”）正式建成揭牌，这是国内首台全部采用国产自主中央处理器（Central Processing Unit，CPU）和系统软件构建的千万亿次计算机系统，标志着我国成为继美国、日本之后能够采用自主中央处理器构建千万亿次计算机的国家。相似文献

9.

一种可扩展的深度神经网络机器翻译Service架构

张巍林飞飞梁镇爽黄振《厦门大学学报(自然科学版)》2019,(2)

提出了一种可扩展的基于深度神经网络方法的在线翻译系统架构方法,采用GPU和CPU混合解码的后端部署方法来提高系统的并发能力,降低系统延迟.实验结果表明,所提出的系统架构方法相比于只使用GPU或CPU架构,系统并发能力更强,而响应延迟相对较低.同时系统的架构方法可以方便地扩展到多服务器架构中,整体上提高系统的性能. 相似文献

10.

基于ARM＋DSP＋FPGA的可重构CNC系统

董海涛庄淑君陈冰陈幼平《华中科技大学学报(自然科学版)》2012,40(8):82-87

通过分析基于PC机的数控系统及嵌入式数控系统架构存在的局限性,结合开放式数控系统的功能需求,设计了一个具有工业以太网功能的模块化嵌入式可重构计算机数控（CNC）系统.该系统改进了传统的基于ARM＋DSP＋FPGA的嵌入式系统设计架构,并扩展了工业以太网功能模块.在此基础上构建了系统硬件平台,给出了系统硬件构成及系统软件实现.该系统中央数字控制单元不再是一个通用的单CPU系统,而是一个嵌入式多CPU系统,不但运算能力强、结构灵活、成本低廉,而且具有通用性强、可组合、易扩展、可伸缩和开放性等特点. 相似文献

11.

面向步进电机控制的RISC-V微控制器的设计与实现

唐钏刘昱曾林《重庆大学学报(自然科学版)》2021,44(11):31-39

为了在步进电机控制领域探索灵活的控制和设计方案,针对第五代精简指令集RISC-V架构的开源创新,设计开发了用于步进电机控制的RISC-V微控制器.在现场可编程门阵列(FPGA)中实现了处理器、存储器、总线、外设及调试接口等模块,构建了可配置的微控制器平台.通过搭建仿真调试环境以及软硬件联合测试,验证了微控制器设计的正确性.在步进电机控制系统测试中,脉冲宽度调制模块产生控制脉冲,正交编码脉冲电路检测转子位置,硬件系统正常工作并且实验的相对误差保持在千分之一量级. 相似文献

12.

关于CPU＋GPU异构计算的研究与分析 总被引：2，自引：0，他引：2

许桢《科技信息》2010,(17):I0097-I0097,I0014

在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,＂结合＂也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU＋GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口（OpenCL）的发布,CPU＋GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。相似文献

13.

“中国屋”，美国对华政策实施新机构

王浩《世界知识》2023,(13):32-34

<正>今年5月，美国国务院负责中国事务的重要官员华自强（Rick Waters）在一次工作会议上表示将于6月底离职，再次引发国内外对于美国国务院“中国屋”（China House）这一机构的高度关注。所谓“中国屋”，是美国政府外交部门下设的专门负责推行对华政策的机构。了解该机构的创设背景、组织架构及主要功能，相似文献

14.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

15.

CPU与GPU、VCU的关系愈加“微妙”

《华东科技》2021,(7)

正一个GPU总需要一个CPU,但CPU的选择已经不再单一,GPU的功能也不再"简单",曾经稳固的关系,不再是单纯的合作。4月,英伟达发布了采用Arm架构的首款数据中心CPU Grace引发广泛关注。6月,外媒Tomshardware报道,像CPU一样总需要一个CPU的谷歌自研视频编解码处理单元Argos VCU,预计可以替换3000万至4000万个英特尔CPU。相似文献

16.

大学本科课程与社会和知识——鲁道夫《课程史》评述

马慧《奇闻怪事》2007,(1):4-8

美国教育历史学家弗雷德里克·鲁道夫（FrederickRudolph）于1977年出版《课程：1636年以采美国本科生学习科目的历史》（Curriculum：AHiStoryoftheAmericanundergraduateCourseofStudySince1636），该书是美国高等教育领域中的一部力作。作者通过本科课程的社会特性和大学的知识特性这两条线索，为读者勾勒出美国高等教育300多年的课程发展史。一些表面上看似简单而叉众所周知的结论，却通过作者点点滴滴的史实丰富生动起来。本丈是对该书的一个简要评述。相似文献

17.

GPU CPU谁革谁的命？

周治国《上海信息化》2008,(6):53-55

随着3D游戏及高清视频的普及,计算机渴望获得更强的图形处理能力。这导致CPU（中央处理器）厂商和GPU（图形处理器）厂商在不断提升自己产品性能的同时,也开始向对方领域渗透。近日,英特尔,AMD等中央处理器生产商蠢蠢欲动,意在推出整合GPU的处理器,而显卡龙头厂商NVIDIA则指出英特尔集成显卡性能不足其独立显卡性能的1/10,同时开始探讨“将原本属于CPU的数据处理功能搬到GPU上”,对以往一直以CPU为核心的电脑数据计算体系发起挑战。这是一场由来已久的纷争,究竟谁能吞并谁？人们将试目以待。相似文献

18.

针对CMT架构的linux内核负载均衡算法优化(英文)

彭建章顾乃杰张旭张颖楠魏振伟《中国科学技术大学学报》2013,43(7):584-590

Linux 2.6的负载均衡算法调度域支持CMP,CMT,SMP,NUMA架构.针对CMT,算法尝试分配新进程到最空闲的处理器核中的最空闲的CPU上;如果某个处理器核中的第一个CPU比较空闲,它会周期性地从该核的最繁忙的CPU上的迁移适量的任务到这个CPU上以平衡系统的任务.然而在某些情况下,该策略会导致系统更加不平衡.有两种方法可以弥补该算法的缺陷:一是新进程放到整个系统的最空闲的CPU上;二是最空闲的CPU可以迁移调度域中的任务.在8处理器核32线程XLR532处理器系统上,使用HackBench测试,系统最高达到8%的性能提升. 相似文献

19.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

20.

基于光分组交换的高性能计算机系统分析

赵俊孙小菡《东南大学学报(自然科学版)》2007,37(5):766-770

提出基于光分组交换及组播的新型高性能计算机系统,分析了系统冲突产生的原因.提出基于循环光纤延时线(Rec-FDL)的冲突解决方案,建立了该结构解决系统冲突时的稳定性及时延模型.比较了Rec-FDL与分组重传冲突解决机制的稳定性及时延特性.Rec-FDL架构所接入的CPU及从节点分组到达率比分组重传机制分别多了400和100 packets/s,具有更高稳定性;分组到达率为500 packets/s时,若CPU与控制节点距离大于20 km,Rec-FDL架构在输出端口产生的时延比分组重传机制至少小4.5 ms;若增至50 km,Rec-FDL架构在系统内部产生的时延比分组重传机制小5 μs.Rec-FDL架构更适于构建分布式HPCS及大范围的网格计算网络. 相似文献