首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 17 毫秒
1.
以高斯通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)和i-vector模型为主的说话人识别算法在实际应用中取得了不错的成绩,但i-vector说话人识别模型中存在没有充分考虑通用背景(uni-versal background,UB)数据与训练数据耦合性的问题导致模型性能不佳.提出了基于i-vector全局参数联合(global parameter joint of identify vector,GPJ-Ⅳ)的说话人识别方法.该方法利用背景说话人特征训练得到说话人通用背景模型(universal background model,UBM),构建基于全局联合差异空间和联合信道补偿的GPJ-Ⅳ模型.通过实验测试并与传统方法进行对比,实验结果显示,所提出的GPJ-Ⅳ模型相比i-vector模型,等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,MinDCF)性能分别提升了58.99%和15.9%.  相似文献   

2.
在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高.  相似文献   

3.
近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。  相似文献   

4.
为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势.  相似文献   

5.
针对电话手机语音的文本无关说话人确认中,训练集语音和测试集语音来自不同信道所产生失配而导致系统性能下降的问题,采用一种基于高维空间映射的方法对系统进行补偿.在分析了已有的说话人确认系统的基础上,提出了一种基于特征参数映射支持向量机模型(PSVM)的说话人确认系统.首先用大量已知信道类型的语音训练出信道空间及映射矩阵,然后训练语音和测试语音都通过映射,消除因信道不同而导致的失配影响.在NIST数据库上的实验结果表明,这种方法弥补了训练语音和测试语音的失配,说话人确认系统的性能有了明显的提高.  相似文献   

6.
针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID).首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.  相似文献   

7.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

8.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

9.
基于鉴别性i-vector局部距离保持映射的说话人识别   总被引:1,自引:0,他引:1  
为了进一步提高i-vector说话人识别系统的性能,该文提出了一种鉴别性i-vector局部距离保持映射(discriminant i-vector local distance preserving projection,DIVLDPP)的流形学习算法。该算法以i-vector间的Euclid距离作为度量准则,并以最小化同类点间距离同时最大化异类近邻点间距离的鉴别性准则作为优化目标函数,利用求解广义特征值的方法,得到最终的投影映射矩阵。在美国国家标准技术局2008年说话人识别核心数据集上的实验结果表明:该算法可以明显提高目前i-vector说话人识别系统的性能。  相似文献   

10.
针对传统的手机电话语音的说话人确认中,未考虑训练语音和测试语音信号本身质量对识别效果的影响问题,采用语音质量测量的方法对GMM-UBM方法进行改进,提出了利用多维基音参数,将基音偏离作为语音信号质量测量准则的方法,对GMM-UBM系统短时谱参数评分过程进行修正,得到基于语音信号质量的评分方法.通过在NIST SRE 2006 1side数据库中男性话者的实验表明,采用语音质量的评分方法能够有效提高系统的识别率,系统的等误识率和检测代价函数都有一定程度的改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号