期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张陈昊郑方王琳琳《清华大学学报(自然科学版)》2013,(6):813-817

对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。相似文献

2.

防止假冒者闯入说话人识别系统 总被引：3，自引：0，他引：3

张利鹏曹犟徐明星郑方《清华大学学报(自然科学版)》2008,48(Z1):699-703

如何防止假冒者闯入,是说话人识别研究中的重要课题之一.回放高保真录音和模仿目标说话人声音是假冒者闯入说话人识别系统的2种常见方式.该文针对用高保真录音来闯入系统进行了初步探索.高保真录音设备是一个模数转换系统,语音通过它会发生一些特性变化.通过检测语音中是否存在高保真录音设备的特性,可以检测假冒者是否在使用回放高保真录音来闯入系统.以Gauss混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)说话人识别系统为基础,用语音数据的静音段对信道进行建模,检测待识别语音与训练语音的信道是否相同,进而判断是否属于高保真录音闯入.实验表明,加入了基于静音段的信道检测后,说话人识别系统对含有假冒者闯入的测试数据的等错误率下降了40％左右. 相似文献

3.

基于概率修正PLDA的说话人识别系统

《天津大学学报(自然科学与工程技术版)》2015,(8)

为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度.为验证基于概率修正PLDA模型的有效性,进行了NIST SRE10 corecore测试集在3种不同时长的评测实验,以及NIST 2014 i-vector machine learning challenge测试任务.结果表明,相较于传统的PLDA训练模型,通过语音时长的约束提高了说话人识别性能. 相似文献

4.

基于高层信息特征的重叠语音检测

《清华大学学报(自然科学版)》2017,(1)

重叠语音是影响说话人分割性能的主要因素之一。该文提出了基于语音高层信息特征的重叠语音检测方法以提高说话人分割效果。首先用通用背景模型(universal background model,UBM)提取语音的语言学高层信息特征,并融合这些特征和Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征建立隐Markov模型(hidden Markov model,HMM)检测重叠语音,然后对处理后的语音进行说话人分割。实验结果表明:对于由TIMIT语音库生成的数据集,该方法对重叠语音检测的错误率比单一采用MFCC特征有显著降低,而且说话人分割性能有明显的提高。相似文献

5.

语谱特征的身份认证向量识别方法

冯辉宗王芸芳《重庆大学学报(自然科学版)》2017,40(5):88-94

针对采用梅尔频率倒谱系数(mel-frequency cepstrum coefficient,MFCC)作为身份认证向量(identity vector,i-vector)进行说话人识别存在语音信息不全的问题,提出一种基于语谱特征的身份认证向量识别说话人的方法。语音信号经过预加重、分帧加窗预处理之后,通过短时傅立叶变换转换成语谱图,语谱图被提交到高斯通用背景模型,在高维均值超向量空间中选择合适的低维线性子空间流型结构以构造符合正态分布的向量作为身份认证向量。这些获取的身份认证向量经过线性判别性分析实现降维并存储。最后采用对数似然比(log-likelihood ratio,LLR)方法对训练和测试阶段的i-vector进行评分,完成说话人识别。以TIMIT数据库为标准的数值实验结果表明,相比采用MFCC作为特征的识别方法,研究的等错误率(equal error rate,EER)更低。相似文献

6.

基于鉴别性i-vector局部距离保持映射的说话人识别 总被引：1，自引：0，他引：1

栗志意何亮张卫强刘加《清华大学学报(自然科学版)》2012,(5):598-601

为了进一步提高i-vector说话人识别系统的性能,该文提出了一种鉴别性i-vector局部距离保持映射(discriminant i-vector local distance preserving projection,DIVLDPP)的流形学习算法。该算法以i-vector间的Euclid距离作为度量准则,并以最小化同类点间距离同时最大化异类近邻点间距离的鉴别性准则作为优化目标函数,利用求解广义特征值的方法,得到最终的投影映射矩阵。在美国国家标准技术局2008年说话人识别核心数据集上的实验结果表明:该算法可以明显提高目前i-vector说话人识别系统的性能。相似文献

7.

GMM-UBM和SVM说话人辨认系统及融合的分析 总被引：3，自引：0，他引：3

鲍焕军郑方《清华大学学报(自然科学版)》2008,48(Z1):693-698

在说话人辨认任务中,Gauss混合模型-通用背景模型(Gaussian mixture model-universal backgroundmodel,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine,sVM)利用帧向量在空间中分布的Gauss混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够.该文分析了这2种说话人识别系统的优缺点,并采用融合方法来提高系统的性能.在美国国家标准与技术研究所(NIST)评测数据集的实验中,融合系统的等错误率从GMM-UBM系统的9.30％和SVM系统的8.26％降低到7.34％,分别相对降低了21.08％和11.14％. 相似文献

8.

基于深度神经网络和Bottleneck特征的说话人识别系统

《清华大学学报(自然科学版)》2016,(11)

近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。相似文献

9.

基于HMM-BIC的说话人日志系统

周瑜金怡珠李桂莲《清华大学学报(自然科学版)》2011,(9):1267-1270,1275

该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数据通常会比较短,首先训练一个通用背景模型,然后用最大后验概率(MAP)准则得到相应片段的模型。在NIST 2004年举办的说话人日志评测任务数据集RT-04S上的实验结果表明:该系统与国际主流系统相比有一定的优势。相似文献

10.

一种新型的与文本相关的说话人识别方法研究

下载免费PDF全文

周雷龙艳花魏浩然《上海师范大学学报(自然科学版)》2017,46(2):224-230

在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高. 相似文献

11.

基于树形通用背景模型的高效说话人辨认

熊振宇郑方宋战江吴文虎《清华大学学报(自然科学版)》2006,46(7):1305-1308

为了提高基于G auss混合模型通用背景模型(GMM-U BM)的说话人辨认系统的运算效率,提出一种基于树的核心挑选算法(TBK S),通过将U BM中的各个G auss分布按组织成树形结构,来减少从中挑选核心分布的运算量。实验结果表明:对1 000个说话人进行辨认,TBK S与现有的基于特征矢量重排序的剪枝算法(ORBP)相结合,将基于GMM-U BM的辨认系统的运算速度提高21.9倍,误识率却只上升不到4%;TBK S和ORBP相结合,可大幅度提高GMM-U BM系统的运算效率,而基本不降低识别率。相似文献

12.

电话语音双人检测算法

李科刘加《清华大学学报(自然科学版)》2007,47(1):65-68

为了提高两个说话人情况下电话语音双人检测的性能,提出了一种基于长时距离与短时距离之和的双人语音分段算法,并对分段过程中的聚类过程进行了改进。对于分段得到的语音采用基于GMM-UBM(Gaussian mixturemodel-universal background model,GMM-UBM)模型的说话人确认算法,构成一个电话语音双人检测系统。实验结果表明:在美国国家标准技术局1999年组织的年度说话人识别评测双人检测数据库上的检测等错误率为15.1%。该算法取得了良好的效果。相似文献

13.

基于超音段韵律特征和GMM-UBM的文本无关的说话人识别

许东星戴蓓缮刘青松许敏强《中国科学技术大学学报》2010,40(2)

提出一种采用超音段韵律特征和GMM-UBM模型结构的文本无关的说话人识别方法,用多尺度小波分析方法从短时倒谱参数MFCC和基频F0随时间变化的韵律中分别提取可用于文本无关说话人识别的超音段韵律特征参数PMFCC和PF0,并组成联合参数PMFCCF0.在NIST068side-1side复杂背景电话手机语音数据库上的说话人确认实验则表明,采用一阶小波分析方法提取的超音段韵律参数PMFCC的识别性能与短时MFCC相当,采用超音段韵律特征PMFCCF0的系统确认性能比采用短时MFCC系统有较大的提高.在微软数据库进行不同信噪比测试语音的说话人辨认实验表明,PMFCCF0有比短时MFCC更好的噪声鲁棒性. 相似文献

14.

改进i-向量说话人识别算法研究

邢玉娟潘颖曹晓丽《科学技术与工程》2014,14(34)

针对信道变化环境下说话人识别系统鲁棒性差及识别率低的问题,提出一种改进i-向量说话人确认算法。首先,利用系统注册说话人GMM-UBM提取话者i-向量;然后,采用加权线性判别分析对i-向量降维和信道补偿,提取更具判别性的特征向量;紧接着,结合类内协方差归一化技术和ZT-norm规整技术对余玄距离得分进行规整,进一步消除信道干扰;最后,构建高鲁棒性余玄距离分类器判定目标说话人。仿真实验结果表明该算法可以有效地提高系统性能。相似文献

15.

基于参考说话人模型和双层结构的说话人辨认

王刚邬晓钧郑方王琳琳张陈昊《清华大学学报(自然科学版)》2011,(9):1261-1266

为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。相似文献

16.

含语音增强模块的i-向量说话人识别性能分析

李昕李为游寒旭朱杰《上海师范大学学报(自然科学版)》2016,45(2):237-242

为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势. 相似文献