首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
应用于说话人识别的矢量量化算法在匹配识别时需要对已有码本进行全搜索,当说话人数量增加时,全搜索的匹配计算量也随之增大,影响系统性能,且不利于片上系统应用开发。针对这一问题,本文提出码本聚类矢量量化算法,通过对训练得到的码本进行聚类处理,获取说话人码本的分类情况及各子类的代表码本。在匹配识别时,首先确定待识别说话人所属的子类,再与该子类的初级码本进行匹配,最终确定说话人身份,通过这种方式减少了与其他不可能子类码本之间的匹配计算量。实验结果表明:选择优化后的码本聚类方式,系统使用全搜索计算次数的42.56%时,误识别率不超过5.00%。  相似文献   

2.
自适应矢量量化在语音信号处理中有广泛地应用 ,提出一种基于SFCM算法的自适应矢量量化码本的训练方法 ,其特点是通过模糊聚类方法 ,重新调整训练样本与码字之间的隶属度 ,达到最小编码失真 ,使码本更适合新说话人 ,且计算简单·本方法的实验结果表明 ,可以使编码平均失真下降·基于SFCM自适应矢量量化码本训练方法@李晶皎 @夏晓东 @顾树生  相似文献   

3.
自适应矢量量化在语音信号处理中有广泛地应用,提出了一种基于SFCM算法的自适应矢量量化码本的训练方法,其特点是通过模糊聚类方法,重新调整训练样本与码字之间的隶属度,达到最小编码失真,使码本更适合新说话人,且计算简单·实验结果表明,可以使编码平均失真下降·  相似文献   

4.
为了有效地减少语音编码的比特数、降低量化误差以及提高解码语音质量,提出了一种二级矢量量化的LPC声码器算法.该算法在模糊聚类与LBG级联的VQ算法的基础上,进一步采用二级矢量量化算法对特征参数矢量进行量化.特征参数为语音的两个特征值:基音周期与增益.第一级码本为矢量码本;第二级码本为误差码本.将该算法应用于LPC声码器中进行仿真实验,结果表明:该算法能有效地降低量化比特数并且减少了量化误差,从而使解码语音质量得到改善.  相似文献   

5.
该文基于语音信号的超矢量特征空间,提出了一种基于Fisher准则的可辨别性深度信念网络(discriminativedeep belief network,DDBN)训练方法,得到了优于传统深度信念网络(deep belief network,DBN)的说话人码本矢量特征,并利用这些码本特征对多说话人的音段进行了聚类与分割。由TIMIT数据库生成的多说话人语音分割的实验结果表明,该基于Fisher准则函数的DDBN说话人分割算法的性能明显好于传统的Bayes信息判决(Bayesian informa-tion criterion,BIC)法和DBN法。  相似文献   

6.
陈雪芳 《科学技术与工程》2013,13(12):3297-3300
提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在近距离的说话人聚类中,使用T2公式比使用BIC和KL在语音块准确率方面分别高出2.62%和13.84%,在远距离的说话人聚类中,使用谱聚类算法基本上可以把语音中的说话人数目计算出来,当说话人数目为15时,类纯度和说话人纯度可以达到78%,说明该算法可以有效地对说话人进行聚类。  相似文献   

7.
为有效找出会议语音中的说话人角色个数及各角色的说话人语音,提出了一种多说话人角色聚类方法.首先定义说话人角色聚类的特征,然后采用测地距离度量特征的相似度,进而提出了一种利用类内距离来控制类间合并的多说话人角色聚类方法,最后采用4种不同类型的会议语音对该方法进行测试.结果表明:对手工分割和自动分割后的会议语音进行说话人角色聚类时,如果采用相同的聚类方法,则使用测地距离的性能优于使用传统距离的性能;如果采用相同的距离度量方法,则文中方法的性能优于传统层次聚类方法.  相似文献   

8.
距离加权矢量量化文本无关的说话人识别   总被引:10,自引:0,他引:10  
本文在研究说话人识别的矢量量化方法时,分析了用矢量量化建立说话人识别模型的可行性。针对量化码本描述的不完全性,提出了一种经距离加权的矢量量化方法,能更好地刻划出说话人语音特征空间的精细结构,从而提高正识率。本文还对特征参数LPCCEP的选取进行了理论分析和实验研究,提出了平均互—自差异比的概念,给出了一种对特征矢量的每一维分量识别能力进行定量化估算的公式。实验结果表明,距离加权矢量量化是一种具有很高正识率的与文本无关的说话人识别方法。  相似文献   

9.
作者讨论了人工神经网络矢量量化在多带激励语音压缩编码算法中的实际应用。采用Kohonen自组织特征映射神经网络技术对语音参数中的谱包络参数进行量化,利用Kohonen自组织特征映射神经网络具有的聚类特性,提出一种初始码本抽取和码本训练的实际算法,训练出具有明显拓扑结构和码本。利用语音的帧间相关性和训练网络的结构特性,提出一种称为“邻域搜索法”的快速码字搜索算法。实验表明,这种矢量量化算法使码卡搜索  相似文献   

10.
基于矢量量化的组合参数法说话人识别   总被引:5,自引:0,他引:5  
 说话人识别的方法很多,提出的基于矢量量化(VQ)的算法,在语音特征表征上利用几种特征参数的组合使用来提高识别率,在VQ过程中,经典的K均值算法收敛速度快,但极易收敛于局部最佳点,为了使聚类算法收敛于全局最优点,同时提高识别率,采用模拟退火算法来改善聚类码本质量.讨论了具体的算法实现,并给出了一些实验数据,实验结果表明该处理方法是有效的.  相似文献   

11.
针对经典支持向量机对非目标样本没有拒绝能力,且应用于说话人辨认时存在不可分区域的问题,提出一种基于模糊C均值聚类和模糊支持向量机的多级模糊说话人辨认方法。首先利用模糊C均值聚类方法对特征向量进行聚类,减少样本的数目,加快模糊支持向量机训练速度。最终由FSVM得出判决结果。并通过仿真实验验证了该方法的有效性。  相似文献   

12.
结合动态谱特性的语音识别研究,阐述了一种有限状态矢量量化(FSVQ)方法。FSVQ利用了过去的信息来选择合适的码本进行编码,对于语音识别更为有效。改进了所使用的语音特征参量,除了LPC倒谱系数外,结合使用了动态谱特征和能量的对数值,并根据汉语发音特征对语音信号端点进行一种加权处理。实验结果表明:与说话人有关的孤立词识别率达到98%。  相似文献   

13.
SFCM模糊聚类在语音矢量量化中的应用   总被引:1,自引:1,他引:0  
提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为256的码本。用SFCM算法得到的码本分布合理,没有空类,采用此码本的语音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

14.
一种基于预测的矢量量化图像编码方法   总被引:2,自引:1,他引:1  
为了提高图像编码效率,提出了一种基于预测的矢量量化图像编码方法.在编解码端设置维数和大小各不相同的两种码书.对于平滑区域,用较小的码书对输入矢量进行编码,从而加快图像编码速度和降低比特率;对于边缘区域,用较大的码书去量化当前输入矢量以保证图像质量.文中还提出了一种有效的码书设计方法以提高生成的码书的质量.仿真结果表明,相对于其它方法,文中所提出的矢量量化图像编码方法运算速度更快,在同样图像质量下降低了传输过程中所需的比特率.  相似文献   

15.
本文提出了一种基于模糊矢量量化(FVQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊矢量量化替代了传统方法中的矢量量化,语音特征参数序列经过模糊矢量量化后得到模糊观察符号序列.在此基础上提取出一个反映训练样本总体随机变化特性的模糊观察符号序列,然后用它对该音节的HMM进行一次性全局训练,训练算法经传统的Baum-Welch算法改进得到.经十个汉语数字的对比实验表明,该训练算法大大提高了系统的训练速度,模糊矢量量化与传统的矢量量化相比,不仅提高了隐马尔柯夫模型的鲁棒性,进而提高了系统的识别率,而且在语音训练数据不充足的情况下,也能得到很好的识别性能.  相似文献   

16.
针对大数据量音频的高速处理,提出一种快速的声学特征超向量生成方法,有效提高音频识别系统的识别速度和精度.所提方法首先将多个连续音频帧的常用声学特征构成声学特征图,进而使用低复杂度的运算方法在其中快速提取维数达数十万的Haar-like声学特征;然后使用AdaBoost.MH算法,筛选出具有较高代表性的Haar-like声学特征模式组合,用以构成声学特征超向量;进而提出Random AdaBoost特征筛选方法,进一步提高特征筛选速度.实验结果表明,在音频事件识别、说话人识别、说话人性别识别3种场合下,使用Haar-like声学特征可以使SVM、C5.0、AdaBoost等识别算法获得比MFCC、PLP、LPCC等常用声学特征更高的识别准确率,同时可以获得7~20倍的训练速度提升和5~10倍的识别速度提升.   相似文献   

17.
在混合激励线性预测 (mixed excitation linear prediction, MELP) 模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model, GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。  相似文献   

18.
 由于说话人的语音信号具有时变性、随机性,其特征参数也呈现出高维及相邻帧变化较大等特点。从量子信息处理理论出发,将一帧语音信号视为一个量子态,在传统神经网络的基础上,利用量子逻辑线路构造神经网络,实现说话人语音信号的有效聚类,探索一种基于量子逻辑线路神经网络的说话人识别模型与方法。利用模型固有的大量全局吸引子,可有效降低语音信号处理的时间及复杂度。通过在经典计算机上模拟仿真,并与BP神经网络说话人识别模型进行对比,表明该方法能够加快说话人识别模型的收敛速率,对参数变化具有更好的鲁棒性,且其系统识别率比BP神经网络方法平均提高了3.34%。  相似文献   

19.
针对说话人识别的噪声鲁棒性问题,在对数谱最小均方差误差估计算法基础上,采用改进的最小值控制递归平均算法对语音帧信噪比进行估计,通过对前一帧的短时功率谱进行2次平滑和前向多帧最小值搜索,结合语音存在概率估计出当前帧的信噪比,并根据信噪比自适应调整增益因子的大小,对噪声进行消除。构建了一种改进的LSA语音增强方法,使用该方法可以使增强后的语音保持较高的自然度。实验结果表明,与MMSE-LSA算法比较,改进的LSA算法具有更好的语音增强效果,在5dB各类噪声环境下,其平均信噪比较MMSE-LSA算法提高1.36dB,主观语音质量评估平均提高8%。将该方法用于说话人识别系统,其检测代价较采用MMSE-LSA算法的系统平均降低3%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号