首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 265 毫秒
1.
汉语孤立词声韵分割算法的研究   总被引:2,自引:0,他引:2  
文章从汉语语音评价系统设计的需要出发,针对DTW算法和汉语音节的特点,研究并实现了汉语音节中声母和韵母分割的两种算法,算法依据的基础都是依据不同类语音段数据相异的原理.在实际系统测试中,发现基于段间距离的分割算法取得了良好的实验结果,可以作为汉语语音评价系统中的声韵分割算法.  相似文献   

2.
基于速度特征矢量提取运动目标的图像分割方法   总被引:3,自引:0,他引:3  
研究基于速度特征矢量提取运动目标的图像分割方法,根据目标图像像素移动的一致性,在序列图像中利用块匹配法进行帧间图像配准,得到目标图像块的速度估计,将具有相同速度矢量的目标图像块聚类,即可分割出运动目标。仿真实验结果表明,该方法能有效地对复杂背景下的运动目标图像进行分割,并具有较好的抗噪能力。  相似文献   

3.
语音分割是苗语语音基础研究的难点和热点问题,其本质是苗语语音音节与沉默段(静音、噪音)之间边界模糊问题,目前相关研究成果较少。针对苗语语音音节分割边界模糊问题,以时域特征分割获得初始的语音边界,通过构建语音音节边界优化评价函数模型,将音节与沉默段之间边界模糊问题转化为音节真实边界和算法预测边界的误差极小化问题,以精英策略保留算法最佳优化分割边界种群个体,提取苗语语音音节与沉默段间的精准边界。实验结果表明,所提方法能显著提高苗语语音音节自适应边界搜索能力。此外,所提自适应分割算法在语音分割模糊边界分割方面显著优于典型的语音分割算法。  相似文献   

4.
张智 《科技信息》2009,(10):205-205,207
本文提出了一种新的基于时空信息的多尺度视频对象分割算法。该算法首先通过对称帧差运算获得当前帧的运动对象;其次。使用基于高频小波系数及其统计特性的多尺度方法来进行空域分割。将空域分割结果与时域的对称帧差分割结果相融合,得到最终的运动对象。分割结果表明,该算法分离出的运动对象定位精度较高,且具有一定的实时性。  相似文献   

5.
宽带ISF参数的矢量量化是语音编码中的重要环节,其量化性能的高低对于解码端语音的质量有重要影响.针对宽带语音ISF参数矢量量化问题,提出了一种新的量化方法.该方法利用ISF参数帧间相关性,将相邻2帧ISF参数的条件PDF用高斯概率模型表示.与传统分裂矢量量化不同,该方法首先根据前一帧的量化结果对当前帧分类、选择合适的码书,然后对该帧在选定的码书中进行分裂矢量量化.实验表明,该算法在每帧编码比特数44时达到透明量化,且平均谱失真比利用传统分裂矢量量化时的谱失真小.  相似文献   

6.
提出一种基于两级支持向量机分类的视频镜头分割方法.第1级分类器利用分段视频首尾帧直方图距离,结合滑动窗口和陷波方法计算分段视频的特征向量,通过支持向量机来分类筛选含有镜头边界的子段;第2级分类器根据不同间距的帧间直方图的距离特征,采用时间窗口法构造特征向量,利用二叉树支持向量机多分类策略检测镜头边界的位置.结果表明,所提出的方法能够同时提高切变和渐变的镜头边界的检测效果.  相似文献   

7.
镜头分割是视频检索的结构化基础,为此提出一种高效的视频镜头分割方法.首先,在压缩域中提取视频流中I帧携带的特征信息,并生成帧间特征分布曲线;然后,利用离散曲线演化(DCE)算法对预处理过的曲线进行分析与演进;最后,分割出视频镜头并提取关键帧.试验结果表明:该方法充分考虑了视频编码的时序特点,具有较好的分割效果,鲁棒性强.  相似文献   

8.
提出了一种基于SDCN算法的鲁棒性语音命令识别。依赖于信噪比的倒谱正常化(SDCN)算法直接在倒谱域根据输入语音帧的信噪比(SNR)来增加一补偿矢量,从而恢复未受污染的净语音信号,补偿矢量直接从训练环境和测试环境中记录的语音倒谱中逐帧比较得到,该算法对退化的环境具有很强的鲁棒性,实验结果证明,该算法简单,有效。  相似文献   

9.
该文基于语音信号的超矢量特征空间,提出了一种基于Fisher准则的可辨别性深度信念网络(discriminativedeep belief network,DDBN)训练方法,得到了优于传统深度信念网络(deep belief network,DBN)的说话人码本矢量特征,并利用这些码本特征对多说话人的音段进行了聚类与分割。由TIMIT数据库生成的多说话人语音分割的实验结果表明,该基于Fisher准则函数的DDBN说话人分割算法的性能明显好于传统的Bayes信息判决(Bayesian informa-tion criterion,BIC)法和DBN法。  相似文献   

10.
基于帧间运动的视频分割   总被引:3,自引:0,他引:3  
视频分割是视频结构化和检索的重要技术 ,目前主要通过镜头分割得到。但许多应用需要对镜头根据摄像机运动作分割 ,现有技术不能满足应用实时需要。提出了一种对P帧运动向量稳健分析计算帧间运动并进行分割的方法。与传统光流法、M估计法比较 ,该算法只在压缩域上进行 ,不需迭代 ,具较强实时性。文中阐述了方法的基本思想、理论依据与实现 ,实验表明 :该方法具有很好的效果  相似文献   

11.
视频分割是视频结构化组织的基础,提出一种结合音频和视觉信息的视频分割新方法,即先对视频作基于边变化率的初步分割,然后提取音频的MFCC及其差分系数特征,利用广义似然比(GLR)距离对音频信息进行相似性比较,并检测相应的音频变化点,在此基础上,应用间频分割点对初步的分割进行验证,获得具有一定语义内容的视频段,实验结果表明,方法简单有效,与单一的基于视觉信息的分割方法相比,获得的视频片段语义信息更为完整,同时也避免了分割的过度细碎。  相似文献   

12.
自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98.  相似文献   

13.
一种面向语音识别的新型神经网络   总被引:1,自引:0,他引:1  
提出了一种新型神经网络模型,描述了该网络的工作原理和训练方法以及识别算法。为克服神经网络对时序信号建模能力差的缺点,引入了非线性分段处理和代表帧特征提取方法。最后介绍了根据这一模型所设计的一个汉语语音识别系统,试验表明该网络在汉语语音识别方面具有较大的潜力。  相似文献   

14.
基于三维动态步态的身份识别方法仿真   总被引:1,自引:1,他引:0  
根据步态识别人身份的研究中,由于二维步态特征无法完全表示人体特有的动态步伐特征,导致识别受限。提出基于三维动态步态的身份识别方法,以连续步态图像帧为单位,通过立体视觉技术从二维图对不同采样时刻的运动人体三维步态轮廓信息进行提取,提取人体步态三维轮廓后,对其进行无关区域分割,获取和人体行走相关的步态特征。通过构建步态特征变换的几何模型,给出动态三维步态特征的转换过程,依据欧氏距离度量,根据结果实现身份识别。仿真实验结果表明,所提方法具有很高的识别精度和识别效率,性能较静态方法有较大的改善。  相似文献   

15.
在混合激励线性预测 (mixed excitation linear prediction, MELP) 模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model, GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。  相似文献   

16.
提出了一种通过张量分解提取语音信号特征的方法. 该方法对语音信号进行预处理,然后对每帧语音信号进行小波分解得到不同尺度上的信息,对这些信息提取传统特征参数,构建一个帧结构×分解尺度×特征参数的三阶张量,并经过张量分解得到各阶投影矩阵,从而建立语音信号在高阶空间上的特征体系,以便充分表征语音信号的特征. 实验结果表明,本文提出的方法与传统特征参数体系比较,有利于语音识别系统性能的提高,并且对于带噪语音的识别具有一定的鲁棒性.   相似文献   

17.
深度学习的快速发展给视频压缩感知重构提供了新思路。受网络模型限制,现有的基于深度学习的压缩感知重构方法不能充分利用视频的空时特征,且对于超过16帧的视频段重构效果不够理想。采用Transformer网络构建压缩感知重构网络,利用Transformer网络在序列信号处理方面的优势构建空时注意力提取模块,学习视频帧间的空时注意力特征,更好地实现对视频连续帧的建模,从而解决长跨度视频段压缩感知重构问题。实验结果表明:所提方法在处理32张视频帧的视频分段时,能达到30 dB以上的重构精度,在处理96张视频帧的视频分段时,仍能达到27 dB以上的良好性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号