首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
一种高效并行处理结构的H.264去块滤波器   总被引:1,自引:0,他引:1  
针对H.264视频编码标准中的去块滤波部分提出了一种基于时间的高效并行处理方法。为了降低对存储器的要求,同时提高中间数据的复用效率,采用了一种改进的滤波顺序,使得对外部存储器的读/写操作可以与滤波操作并行执行。另外,由于外部数据的预先载入技术,有效地降低了外部存储器的结构复杂度。与过往技术相比,这种单数据口外部存储结构的去块滤波器单宏块滤波处理周期总数减少了9.6%~74.4%,有效地提高了处理能力。  相似文献   

2.
由于去块滤波运算数据量庞大的特点以及视频解码实时性的要求,近年来,去块滤波运算的硬件加速器已逐渐成为研究的热点。从兼顾系统的灵活性与性能的角度出发,设计了一种可重构去块滤波器。与传统的支持单一标准的去块滤波硬件加速器相比,该滤波器具有以下优点:实现了一种滤波算法可配置的滤波器结构,从而可以支持多个视频编码标准;采用了基于SIMD单指令多数据流技术,实现滤波数据全并行运算,使硬件高度规整,易于芯片布局布线;设计了1个4级可配置的流水线,重构为不同视频标准的去块滤波器,复用硬件资源,提高了硬件利用率和系统数据吞吐量。用这种架构实现了1个同时支持H.264、AVS、VP8、RealVideo 4种标准的多标准去块滤波加速器,时钟频率为200 MHz,能够用于多标准高清视频的实时滤波处理。  相似文献   

3.
提出了一种滤波单元数可配置的HEVC去块滤波器VLSI结构。通过对HEVC的去块滤波算法分析,针对滤波块间相互独立进行滤波的特性,设计了滤波单元数可配置的并行结构。该结构将滤波单元设计成基本单元,数量可调节。在提高了吞吐率和计算效率的同时,解决了VLSI设计中面积过大的问题。并设计了转置模块,有效地对数据进行调整,以提高流水线运行效率。在SMIC 0.13μm工艺库下,进行逻辑综合,滤波单元采用4个,系统总门数为59.7K。在时钟频率300MHz下,可处理3840×2160@33fps的视频序列。  相似文献   

4.
H.264视频编码标准的去块效应滤波器在改善视频主观质量的同时,也引入了巨大的计算量。为了得到一个高处理能力和低电路规模的去块效应滤波器,提出一种将对外部存储器的读写操作与滤波计算并行执行的滤波算法,并给出了该算法的电路结构。基于0.18μm的工艺,用Verilog语言对该算法和结构进行了实现。结果表明,综合后电路的关键路径最大时延为7 ns,电路规模低于1.65万门,能够以111.7帧/s的帧率对1 280×720分辨率的图像进行滤波处理。与现有的设计相比,本设计节省了32.5%的面积,同时提高了79.3%的处理能力。  相似文献   

5.
H.264视频编码标准的去块效应滤波器在改善视频主观质量的同时,也引入了巨大的计算量。为了得到一个高处理能力和低电路规模的去块效应滤波器,提出了一种将对外部存储器的读写操作与滤波计算并行执行的滤波算法,并给出了该算法的电路结构。基于0.18μm的工艺,用Verilog语言对该算法和结构进行了实现,结果表明,综合后电路的关键路径最大时延为7ns,电路规模低于1.65万门,能够以111.7帧/s的帧率对1280×720分辨率的图像进行滤波处理。与现有的设计相比,本设计节省了32.5%的面积,同时提高了79.3%的处理能力。  相似文献   

6.
现场可编程门阵列实现液晶显示控制的新方法   总被引:1,自引:1,他引:0  
提出了一种用现场可编程门阵列实现阵列式液晶显示控制的方案.采用总线窃取的存储器操作方法,使外部对存储器的操作请求与显示页扫描完全独立,避免了数据读写对屏幕显示的干扰.为提高控制器对色彩的操控性能及屏幕显示效果,提出了一种多层多分块的存储器组织构架,允许在小容量存储时采用单页伪彩显示,而当存储容量扩大时自动支持多页真彩显示.在屏幕写入操作功能上,可以实现与任意指定块对应位置值的逻辑操作,为写屏操作提供了更为方便灵活的方法.  相似文献   

7.
在H.264/AVC标准中,去块滤波是提高图像质量和压缩效率有效手段,但其计算复杂度所占时间极大.在整个滤波过程中,边界强度(Bs)的计算复杂度的计算时间几乎占90%,在重点分析H.264的去块滤波的Bs判定准则之后,提出一种基于快速Bs判定的H.264去块滤波优化算法(FF算法).通过实验数据分析,FF算法能够有效地确保视频序列的编解码质量,并比JM中基准算法降低了近50%的Bs判定时间及近20%的滤波时间;与其他改进滤波算法相比也有自身优势,因此,FF算法能够有效地降低去块滤波中的计算复杂度,有助于视频序列实时传输的实现.  相似文献   

8.
针对片上系统(System on Chip,SoC)中多主设备、多猝发操作的访问特点,提出并实现了一种新的片内总线访问外部存储器的结构,并对核心模块的设计与优化进行了分析.该结构通过分割传输方式使内部总线平均利用率提高了29%~34%;并且,通过对SDRAM控制模式的动态切换有效地降低了外存读写延迟和功耗.  相似文献   

9.
为了满足路表三维形态精确重构和路面病害检测与特征提取的要求,针对路面激光三维成像系统,结合数字图像滤波处理技术,提出了一种双相标准差滤波法与基于组合结构元素的级联形态学滤波算法相结合的去噪方法,即先对路面三维数据进行双相标准差滤波处理,然后再对其进行基于组合结构元素的级联形态学滤波处理。对整个三维数据、行数据、列数据3个方面进行去噪效果分析。研究结果表明:双相标准差滤波法能够很好地滤除高信噪比情况下的脉冲噪声干扰,同时保持路表完整的三维图像细节;基于组合结构元素的级联形态学滤波在低信噪比情况下能有效滤除路表三维数据毛刺类背景噪声的干扰;将这2种滤波算法结合可使总噪声、行噪声、列噪声均获得比中值滤波更好的去噪效果。  相似文献   

10.
鞠铭烨 《科学技术与工程》2012,12(33):9045-9048,9060
在基于块的离散余弦变换编码的图像压缩技术中,低比特率时其重构图像的块边界上会产生严重的方块效应,降低了图像主观质量。提出了一种基于块特性的自适应去块效应算法。该算法以8×8块为单位对图像划分为平坦区域、边缘区域、纹理区域,并针对不同区域选用相应的滤波算法。仿真结果表明,该算法能够有效地去除图像中的块效应,并保留了大量的图像细节。  相似文献   

11.
基于CUDA的高速并行高斯滤波算法   总被引:2,自引:1,他引:1  
为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力.  相似文献   

12.
提出一种新型冷轧带钢表面缺陷在线检测系统的体系结构并说明其工作原理.采用多台面阵CCD成像、几何分段、数据合成的检测方法.选用先进的高速数字信号处理器(DSP)作数字图像处理平台,构成了并行工作的多DSP的主从式信号处理系统.该系统已在线运行.  相似文献   

13.
设计了一个能降低系统自举时间,避免系统调用瓶颈,容错,动态可变以及面向应用的开放式并行操作系统。系统范围的消息传递是低延迟高效率,把并行操作系统设计成一族程序模块,并行应用是这个族不可缺少的组成部分,利用面向对象来高效地实现这样的并行操作系统。  相似文献   

14.
针对引导滤波算法运算速度慢、无法实时处理的问题, 提出基于统一计算设备架构(CUDA: Compute Unified Device Architecture)实现引导滤波算法的加速。利用CUDA 并行编程实现图像邻域窗口像素值求和,进而获得图像邻域均值; 通过利用寄存器和纹理存储器, 同时优化算法步骤, 获得引导滤波关键参数, 进而实现对算法的整体优化。实验结果表明, 与基于CPU 实现引导滤波算法相比, 基于CUDA 并行处理可在很大程度上提高运算速度, 基本达到了实时处理的要求。  相似文献   

15.
环形移位悬浮存储器体系并行CT图象重建系统   总被引:1,自引:0,他引:1  
针对三维计算机层面成象(CT)图象重建所必须的巨大运算量,提出了一种采用多处 理器并行处理技术实现三维CT高速图象重建的技术方案:“环形移位悬浮存储器”体系并行 结构,并分析了三维CT图象重建实现并行的原理,“环形移位悬浮存储器”并行处理系统的体 系结构,以及理论结果。  相似文献   

16.
以导引头图像处理工作为应用背景,分析了图像数据与处理器之间的映射关系,并在此基础上给出数据传送指令功能的定义,研究了SIMD系统结构参数,提出如何正确选择PE数据路径宽度,存储器访问带宽和局部存储器容量,研究结果对我国并行技术的发展具有一定的借鉴意义。  相似文献   

17.
0 IntroductionDtartaaf fsitcr ecaonmtsroiln , mwaenayth aeprpfloicraectiaosnts e ,tcs u,ccho maes fwroebm sdeirsvtircieb-,uted data sources at different geographiclocations .Distributedprocessing is the inevitable development trend for managingdata streams . Shared-nothing clusters can scale up to thou-sands of computers ,increase the available main memory,pro-cessors ,diskspace and bandwidthalongthe way,andtherebyprovide potential for high throughput and lowlatencies . Yetto date(As yet) ,th…  相似文献   

18.
为满足 HEVC(High Efficiency Video Coding)标准解码器中数据高吞吐率和高访存量的要求, 提出了一种 面向 HEVC 的高效率分像素插值滤波 VLSI(Very Large Scale Integration)架构设计。 在 HEVC 标准分像素插值算 法的基础上, 构造高并行度和流水线的插值滤波 VLSI 架构; 利用滤波器系数反转对称性, 设计可复用 8 阶滤 波器结构, 以减少滤波器硬件面积; 在传统的单输入通道插值器的基础上, 设计两路并行的 8 输入插值器, 以 提高数据吞吐量。 实验结果表明, 该设计能在频率为 34. 2 MHz 下完成 1 920伊1 080@ 30 帧/ s 视频解码需求, 同时, 能够满足 3 840伊2 160@60 帧/ s 视频的实时传输。  相似文献   

19.
相控阵雷达仿真系统并行计算研究   总被引:1,自引:0,他引:1  
针对共享存储多处理器的集群环境,研究了减少相控阵雷达仿真系统运行时间的并行计算方法.根据相控阵雷达多个波束处理过程的相对独立性和信号处理仿真中多个距离单元采样点的计算特点,提出了一种粗粒度消息传递接口(MPI)分布式内存和细粒度OpenMP共享内存混合编程的两级并行方法.实验结果表明,并行计算使系统的仿真速度有较大提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号