期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高榕张良梅魁志《西安交通大学学报》2018,(6)

针对开源深度学习快速特征嵌入的卷积框架(Caffe)在Android移动端进行前向计算时存在的兼容性和时间性能差的问题,提出了基于Caffe的嵌入式同构、异构并行化改进设计方法。该方法将Caffe及其第三方库通过交叉编译移植到嵌入式移动平台后,利用同构的多核多线程方法分别对卷积层、输入帧之间的部分前向计算过程进行了并行化;实现了采用开放运算语言(OpenCL)的异构图形处理器(GPU)卷积计算,进一步提升了框架的处理速度。对3种经典的深度神经网络模型MNIST、Cifar-10和CaffeNet进行了测试对比,测试结果表明:在没有任何模型精度损失的条件下,并行后的前向计算耗时明显低于并行前,时间性能提升最高达到2倍。所提方法能够将深度学习框架Caffe高效地、并行地部署和应用于嵌入式移动多核芯片上。相似文献

2.

面向OpenCL的Mali GPU仿真器构建研究

崔继岳梅魁志刘冬冬李博良《西安交通大学学报》2015,(2):20-24,68

针对嵌入式GPU通用计算的仿真器构建需求,通过对通用图形处理单元仿真器(general purpose graphics processing unit-simulator,GPGPU-sim)的计算核心、存储结构与Mali GPU的异同进行比较分析,首先建立面向OpenCL的Mali GPU仿真器的流程与结构,并设计计算单元数、寄存器数、最小并行粒度等GPU微体系结构参数的获取方法,在对GPGPU-sim进行修改和配置后,实现了对特定GPU架构的仿真器构建。使用矩阵相乘、图像处理等OpenCL程序对仿真器的准确性进行测试,以程序在仿真器和硬件平台上的执行周期数差距作为评估依据。实验结果表明:对于测试程序集中优化前的OpenCL程序,其中70%的程序在两个平台上的运行周期数差距不超过30%;对于优化后的OpenCL程序,其中90%的程序的运行周期数差距不超过30%。由此证明,构建的GPU仿真器能够满足OpenCL程序的仿真与性能评估。相似文献

3.

ARM GPU的多任务调度设计与实现 总被引：1，自引：0，他引：1

丑文龙梅魁志高增辉李博良《西安交通大学学报》2014,(12):87-92

针对现有GPU任务调度系统在多任务环境下不能保证图形任务响应时间的问题,提出基于分类和多优先级队列(CPMQ)的调度方案,并在ARM的嵌入式GPU上实现验证。该方案中,将GPU的多任务划分为图形任务、通用计算任务和实时图形3类任务并分别建立队列排队,其中图形任务和通用计算任务按照优先级在各自队列中排队,实时图形按照任务截止时间排队。面向多队列的任务调度,优先从实时任务队列中选择任务,并按照加权公平算法分别在图形任务队列和通用计算队列中选择任务。实验结果表明:相比于ARM GPU的原有调度系统,CPMQ在不显著增加通用计算任务的执行时间和调度开销的情况下,将实时图形任务的帧率提升了5%~20%。相似文献

4.

基于JPEG2000芯片的小波系数存储

梅魁志郑南宁王勇曹非兰旭光《西安交通大学学报》2004,38(8):876-876

相似文献

5.

一种同步流水算术编码器的设计 总被引：6，自引：0，他引：6

梅魁志郑南宁兰旭光姚霁《西安交通大学学报》2004,38(4):331-334,356

针对JPEG2000标准中的算术编码器实现时,在上下文(CX)表更新、归一化及字节输出过程中具有返回或等待路径问题,提出一种新的同步流水算术编码器设计方案．该方案采用4步流水线设计,通过流水线操作的时序分析,得到了CX表的单步更新方法,并设计了一种树型搜索的寄存器的短延时0位检测电路．引入多路选择器来加速实现任意位左移,在提高主关键路径并行性的同时,采用了多种方法对寄存器传输级代码进行优化．实验表明,在EP1S258672C7上,最高工作时钟可达107．91MHz．相似文献

6.

基于JPEG2000芯片的小波系数存储器设计

梅魁志郑南宁王勇曹非兰旭光《西安交通大学学报》2004,38(10):1072-1075

针对JPEG2000芯片设计中的完全小波系数存储占用大量存储器问题,在小波变换总体结构中对小波系数的LH、HL和HH子带采用双缓存的物理存储结构.为了解决由此产生的写覆盖,首先建立小波滤波器的时序模型,得到输入输出延时时钟数,根据此时钟数和缓存标志位的状态决定其输入地址发生器的地址产生,以实现可控的小波滤波器输出.在图像大小为256×256像素、码块大小为16×16像素时,与完全系数存储结构相比,该结构可节约片上存储器达576kb.通过对子带内小波系数的分布模型和缓存内的位平面数统计分析表明,该结构对编码并行性的影响较小,仿真实验同时证明了并行效率的降低不会超过2%. 相似文献

7.

一种面向写穿透Cache的写合并设计及验证 总被引：1，自引：0，他引：1

梅魁志李国辉张斌《西安交通大学学报》2010,44(4)

为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连续和单个Cache读写的缓存与内存的数据一致性策略.在寄存器传输语言(RTL)仿真环境下使用mp3解码对Leon2处理器进行数据测试,结果表明:在缓冲区优化为3行8列的参数下,SDRAM每次行开启平均进行7.8个字的写入操作,外存的读写效率由12%提高到19%;在TSMC0.18μm工艺下,综合后面积为0.263mm2,流片后工作主频为100MHz. 相似文献

8.

仿生物视觉的非均匀采样方法及其硬件设计

张斌梅魁志郭青《西安交通大学学报》2010,44(6)

利用生物的选择注意机制可减少计算量的优势,提出了仿生物视觉的非均匀采样方法并实现了硬件设计.利用基于高斯函数的模型模拟了生物视觉的选择性响应特性,由此得到采样层优先和采样密度优先的2种非均匀采样表达式.在视觉处理芯片中,根据人眼特性并利用采样密度优先的方法,将图像分为4层进行非均匀采样和数据传送.实验表明:较之已有的非均匀采样方法,所提方法更具生物视觉特性和物理可实现性,并具有较高的压缩率;当注视点为图像中心时,数据压缩率达到了1/28;利用任意选取注视点得到的非均匀采样数据恢复的图像效果符合人眼视觉特性. 相似文献

9.

JPEG2000二维离散小波变换高效并行VLSI结构设计 总被引：14，自引：1，他引：13

兰旭光郑南宁吴勇刘跃虎刘在德梅魁志《西安交通大学学报》2004,38(2):149-153

提出一种基于提升算法,实现JPEG2000编码系统中二维离散小波变换(DWT)的高效实时并行VL-SI结构设计方法。利用该方法所得结构使行和列滤波器同时进行滤波,用少量行缓存代替大量中间存储空间,用优化的移位加操作替代乘法操作。整个结构采用流水线设计方法处理,在保证同样的精度下,大大减少了运算量,增加了硬件资源利用率,加快了变换速度,减小了电路的规模。二维离散小波滤波器结构已经过Verilog HDL行为级仿真验证,并可作为单独的IP核应用于正在开发的JPEG2000图像编、解码芯片中。相似文献

10.

一种高效的JPEG2000位平面编码器设计 总被引：4，自引：0，他引：4

王勇郑南宁梅魁志朱悦心刘跃虎《西安交通大学学报》2005,39(2):158-161

针对JPEG2000 芯片实现时的硬件复杂性和编码效率低的问题,通过分析编码所需状态变量的产生机制,得到了一种最高有效位(MSB)检测电路,它能使状态变量实时产生.同时,在 3 个通道编码时引入列快速扫描电路,它在清除通道编码中设计了游程编码和0编码的流水实现电路,最后得到了位平面编码器 0冗余时钟设计.将此方法用于实现三通道并行的位平面编码器时,相对于单通道的跳点跳列,其运算速度可提高2倍,逻辑电路节约50%,而对于64×64像素的码块,存储器节约20 kb. 相似文献