期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王刚邬晓钧郑方王琳琳张陈昊《清华大学学报(自然科学版)》2011,(9):1261-1266

为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。相似文献

2.

GMM-UBM和SVM说话人辨认系统及融合的分析 总被引：3，自引：0，他引：3

鲍焕军郑方《清华大学学报(自然科学版)》2008,48(Z1):693-698

在说话人辨认任务中,Gauss混合模型-通用背景模型(Gaussian mixture model-universal backgroundmodel,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine,sVM)利用帧向量在空间中分布的Gauss混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够.该文分析了这2种说话人识别系统的优缺点,并采用融合方法来提高系统的性能.在美国国家标准与技术研究所(NIST)评测数据集的实验中,融合系统的等错误率从GMM-UBM系统的9.30％和SVM系统的8.26％降低到7.34％,分别相对降低了21.08％和11.14％. 相似文献

3.

基于掌上电脑录音的说话人辨认

殷启新韩春光杨鉴《云南民族大学学报(自然科学版)》2003,12(4):251-254

说话人辨认是语音信号研究中的一个重要组成部分。本文根据掌上电脑录音的语音数据库进行说话人辨认的实验。当高斯混合模型(GMM)用于说话人辨认，而特征矢量的协方差矩阵取不同形式时，比较用EM算法对模型参数进行估计的收敛性以及对说话人辨认的影响。实验表明，当特征矢量参数协方差矩阵为满矩阵时，EM算法能更有效估计GMM参数，有效提高识别率。相似文献

4.

基于HMM／MLFNN混合结构的说话人辨认研究 总被引：3，自引：0，他引：3

包威权陈琦《北京大学学报(自然科学版)》1997,33(3):359-367

将隐马尔可夫模型与人工神经网络相结合既利用ＨＭＭ能够较好地描述动态时间序列又ＡＮＮ静态分类能力强的特点，应用于说话人辨认。本文将一个多层前馈神经网络与ＨＭＭ相结合构成混合模模型，与以往的方法不同。具有所需训练数据量小，推广性能良好的特点。相似文献

5.

基于GMM统计参数和SVM的说话人辨认研究

贺志阳张玲华《南京邮电大学学报(自然科学版)》2006,26(3):78-82

支持向量机(SVM)是以统计学习理论为基础,解决模式识别问题的有力工具,但是它训练算法复杂,难以处理大量样本,限制了其在说话人识别方面的使用。针对这个问题,提出了一种基于GMM(高斯混合模型)统计参数和SVM的说话人辨认系统,以GMM模型的统计参数来训练SVM说话人辨认模型,有效解决了大样本数据下SVM模型的训练问题。实验表明,该方法有良好的效果,并且与倒谱加权方法结合后,可以增强系统的健壮性,进一步提高系统的识别率。相似文献

6.

基于KFD特征提取的说话人辨认

党圣鸣姚宏高敬媛《西北大学学报(自然科学版)》2009,39(4):583-585

目的获得具有更好的说话人鉴别特征,改善说话人识别系统。方法首先用KFD对语音信号的MFCC特征进行再提取,然后用SVM对提取的特征分类辨认。结果比较了LPC和KDA提取MFCC后的3种特征的识别结果。其中LPC的识别结果在89%左右,MFCC识别结果在96%左右,提取后的识别结果在97%左右,其识别率比提取前有明显的提高。结论该方法对说话人有更好的识别能力。KFD比传统的LDA能提取出可分性更强的特征,提高了系统的识别率,同时由于该方法的复杂性,也增加了系统的运算时间。今后,应该针对如何进一步提高系统的识别率和缩短系统的运算时间等问题进行研究。相似文献

7.

两级决策的开集说话人辨认方法 总被引：10，自引：0，他引：10

何致远胡起秀徐光祐《清华大学学报(自然科学版)》2003,43(4):516-520

为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。相似文献

8.

基于神经网络的与文本相关说话人辨认系统

荣蓉《山东科学》2008,21(4):62-65

说话人识别是语音识别的一种特殊方式,对于各种领域的身份认证具有得天独厚的优势。以线性预测系数（Linear Predielion Coefficients,LPC）作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。实验结果表明,这种神经网络系统在说话人辨认中是有效的。相似文献

9.

基于GMM的"时间-空间分布模型(TSDM)"及其在说话人辨认中的应用 总被引：1，自引：0，他引：1

王超侯丽敏《上海大学学报(自然科学版)》2005,11(6):565-569

提出了一种新的注册者模型——“时间一空间分布模型（TSDM）”,传统GMM用参数表征训练矢量的空间分布,但舍弃了训练矢量间的时间联系信息,而TSDM利用基于GMM中均值矢量的高阶协方差矩阵,可向训练矢量的空间分布模型中引入一定程度的训练矢量间时间联系．还给出了TSDM的判据生成方法．实验表明,TSDM能在长训练语句时获得与传统GMM相当的识别性能,在短训练语句时表现得更优秀．相似文献

10.

基于GMM特征变换和模糊LS-SVM的说话人辨认

李燕萍唐振民丁辉张燕《华中科技大学学报(自然科学版)》2008,36(Z1)

针对最小二乘支持向量机在语音数据大样本输入下的局限性,提出了一种基于GMM特征变换和模糊LS-SVM的学习算法,结合高斯混合模型在拟合数据分布方面和最小二乘支持向量机在分类辨别方面的突出优势,有效地提取说话者特征信息,压缩了数据,解决了大样本数据输入下最小二乘支持向量机的训练速度和测试精度问题,同时在LS-SVM系统中引入模糊隶属度函数,很好地解决了不可分数据的输出.理论研究和实验表明,所提方法能充分地利用训练数据,使得系统在具有更好辨别能力的同时提高了鲁棒性和识别率. 相似文献

11.

与文本无关的复合策略说话人辨识系统 总被引：4，自引：1，他引：4

牟晓隆胡起秀吴文虎《清华大学学报(自然科学版)》1997,(3)

为获得较高的说话人辨识正确率，同时减小辨识系统的时空开销，提出了一种复合策略的辨识系统。采用长时平均频谱作为粗识的特征，定义了相应的辨识判别准则。建立ｍｅｌ－倒谱特征的高斯混合模型（ＧＭＭ）进行第二步辨识。给出了ＧＭＭ求解算法的一种简便推导，着重研究了判别阈值，预加重系数，ＧＭＭ阶次，训练语音长度及辨识语音长度对系统辨识性能的影响。相似文献

12.

基于GMM全统计参数和SVM的文本无关话者确认 总被引：1，自引：0，他引：1

姚亮亮戴蓓蒨《中国科学技术大学学报》2008,38(12)

针对电话语音条件下的文本无关话者确认,提出了一种基于GMM(Gaussian mixturemodel)全统计参数和SVM(support vector machine)的话者确认方法,以克服语音特征参数直接建立SVM话者模型面临的困难.该方法使用由GM(general model)自适应均值得到的GMM提取统计参数,定义了一种合理利用全部统计参数的特征参数,并以此参数及线性核函数建立了具有良好性能的SVM话者模型.与GMM-UBM方法及另一种基于GMM统计参数和SVM的方法在NIST05SRE数据库中的实验比较,结果表明基于GMM全统计参数和SVM的话者确认方法拥有优异的性能. 相似文献

13.

基于非特定发音人拉祜语孤立词语音识别研究 总被引：1，自引：2，他引：1

王米利佘玉梅苏洁刘敬凤潘文林《云南民族大学学报(自然科学版)》2015,24(4):337-340

选用200个拉祜语常用词,以词为识别单元,利用语音识别工具箱HTK开展非特定人拉祜语孤立词的语音识别研究.研究发现:特定发音人的识别率比较稳定,针对非特定发音孤立词,通过增加模型的混合高斯数目,其识别率得到显著提高,使得识别正确率保持在99%以内,为拉祜语孤立词识别提供了有效方法. 相似文献

14.

基于AdaBoost的汉语方言辨识

顾明亮夏玉果张长水杨亦鸣《东南大学学报(自然科学版)》2008,38(4)

为了在训练样本受限的情况下,提高汉语方言辨识的效果,提出了一种基于AdaBoost的汉语方言辨识新方法.该方法将GMM与语言模型组成的辨识系统看成一组弱分类器,然后对这组弱分类器所得的分类结果进行加权投票,最终决定汉语方言测试语音的所属类别.实验结果表明:增加GMM或弱分类器的个数,可以有效提高系统的辨识效果;测试语音越长,系统辨识效果越好;当训练样本有限的情况下,采用AdBoost方法比采用ANN方法具有更高的辨识率. 相似文献

15.

一种基于历史背景的混合高斯背景建模算法

肖进胜 刘婷婷张亚琪彭红鄢煜尘《湖南大学学报(自然科学版)》2015,42(10):127-132

针对背景场景重复显现问题,提出了一种基于历史背景的混合高斯模型(History Background-based GMM,HBGMM).相较于传统的混合高斯模型,该模型对历史背景模型进行标记,并通过判决匹配次数快速调整历史背景模型的学习率.同时对模型权重低于阈值下限历史模型和非历史模型进行区别处理,用该方法更新模型权重从而降低误检率,使历史模型尽量避免误删除.实验结果表明,本文提出的基于历史背景的混合高斯背景模型能够实现记忆背景的功能,从而更快地适应场景的变化,减少前景误判. 相似文献

16.

一种新的高斯混合模型参数估计算法 总被引：3，自引：0，他引：3

王超侯丽敏《上海大学学报(自然科学版)》2005,11(5):475-480

该文提出了一种高斯混合模型（GMM）参数估计的改进算法．原始的特征向量先经Schmidt正交化消除各维间的相关性,再用数学形态学方法估计出各维概率分布中混合分量的真实个数,最后按真实的混合分量个数用EM算法对各维分别作标量GMM参数估计．该方法能缓解GMM传统参数估计算法引起的“不易扩展”的不便．实验结果表明,将其应用于说话人辨认,能在较大幅度提高训练速度的基础上相对传统GMM参数估计方法获得更高的识别率．相似文献

17.

一种改进的基于混合高斯分布模型的自适应背景消除算法

王亮生程荫杭《北京交通大学学报(自然科学版)》2003,27(6):22-25

视频检测技术是智能交通系统研究中一个重要研究方向,根据交通流视频检测的特点,对基于混合高斯分布模型的自适应背景消除方法进行了改进.包括:背景模型匹配只使用亮度信息;将高斯分布模型按权值、方差排序;使用单目深度信息来确定背景;动态调整采样频度等.实验表明,本文提出的算法,分割效果较佳,分割的实时性大大增强. 相似文献

18.

Maximum Likelihood A Priori Knowledge Interpolation-Based Handset Mismatch Compensation for Robust Speaker Identification

LIAO Yuanfu ZHUANG Zhixian YANG Jyhher 《清华大学学报》2008,13(4)

Unseen handset mismatch is the major source of performance degradation in speaker identifica-tion in telecommunication environments.To alleviate the problem,a maximum likelihood a priori knowledge interpolation (ML-AKI)-based handset mismatch compensation approach is proposed.It first collects a set of handset characteristics of seen handsets to use as the a priori knowledge for representing the space of handsets.During evaluation the characteristics of an unknown test handset are optimally estimated by in-terpolation from the set of the a pdod knowledge.Experimental results on the HTIMIT database show that the ML-AKI method can improve the average speaker identification rate from 60.0% to 74.6% as compared with conventional maximum a posteriori-adapted Gaussian mixture models.The proposed ML-AKI method is a promising method for robust speaker identification. 相似文献

19.

基于听觉特性和发声特性的语种识别

华英杰;朵琳;刘晶;邵玉斌《云南大学学报(自然科学版)》2023,45(4):807-814

针对现有的方法在低信噪比环境下语种识别性能不佳,提出了一种耳蜗滤波系数和声道冲激响应频谱参数相互融合的语种识别方法. 该方法表征了人的耳蜗听觉特性和发声特性,首先提取模拟人耳听觉特性的耳蜗滤波系数,再融合表征人的发声特性的声道冲激响应频谱参数,最后采用高斯混合通用背景模型对所提方法在语种识别上进行测试. 实验结果表明,在4种信噪比环境下,该方法优于其他对比方法;相对于基于深度学习的对数Mel尺度滤波器能量特征,识别正确率提升了16.1%,与其他方法相比有较大程度的提升. 相似文献

20.

基于二次互信息的特征选择算法

李滔王俊普王鹏伟吴秀清《中国科学技术大学学报》2006,36(11):1133-1138

将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能. 相似文献