共查询到19条相似文献,搜索用时 78 毫秒
1.
为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。 相似文献
2.
GMM-UBM和SVM说话人辨认系统及融合的分析 总被引:3,自引:0,他引:3
在说话人辨认任务中,Gauss混合模型-通用背景模型(Gaussian mixture model-universal backgroundmodel,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine,sVM)利用帧向量在空间中分布的Gauss混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够.该文分析了这2种说话人识别系统的优缺点,并采用融合方法来提高系统的性能.在美国国家标准与技术研究所(NIST)评测数据集的实验中,融合系统的等错误率从GMM-UBM系统的9.30%和SVM系统的8.26%降低到7.34%,分别相对降低了21.08%和11.14%. 相似文献
3.
目的 获得具有更好的说话人鉴别特征,改善说话人识别系统.方法 首先用KFD对语音信号的MFCC特征进行再提取,然后用SVM对提取的特征分类辨认.结果 比较了LPC和KDA提取MFCC后的3种特征的识别结果.其中LPC的识别结果在89%左右,MFCC识别结果在96%左右,提取后的识别结果在97%左右.其识别率比提取前有明显的提高.结论 该方法对说话人有更好的识别能力.KFD比传统的LDA能提取出可分性更强的特征,提高了系统的识别率,同时由于该方法的复杂性,也增加了系统的运算时间.今后,应该针对如何进一步提高系统的识别率和缩短系统的运算时间等问题进行研究. 相似文献
4.
说话人辨认是语音信号研究中的一个重要组成部分。本文根据掌上电脑录音的语音数据库进行说话人辨认的实验。当高斯混合模型(GMM)用于说话人辨认,而特征矢量的协方差矩阵取不同形式时,比较用EM算法对模型参数进行估计的收敛性以及对说话人辨认的影响。实验表明,当特征矢量参数协方差矩阵为满矩阵时,EM算法能更有效估计GMM参数,有效提高识别率。 相似文献
5.
基于HMM/MLFNN混合结构的说话人辨认研究 总被引:3,自引:0,他引:3
将隐马尔可夫模型与人工神经网络相结合既利用HMM能够较好地描述动态时间序列又ANN静态分类能力强的特点,应用于说话人辨认。本文将一个多层前馈神经网络与HMM相结合构成混合模模型,与以往的方法不同。具有所需训练数据量小,推广性能良好的特点。 相似文献
6.
支持向量机(SVM)是以统计学习理论为基础,解决模式识别问题的有力工具,但是它训练算法复杂,难以处理大量样本,限制了其在说话人识别方面的使用。针对这个问题,提出了一种基于GMM(高斯混合模型)统计参数和SVM的说话人辨认系统,以GMM模型的统计参数来训练SVM说话人辨认模型,有效解决了大样本数据下SVM模型的训练问题。实验表明,该方法有良好的效果,并且与倒谱加权方法结合后,可以增强系统的健壮性,进一步提高系统的识别率。 相似文献
7.
两级决策的开集说话人辨认方法 总被引:10,自引:0,他引:10
为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。 相似文献
8.
针对最大似然训练分辨能力的不足,把最大互信息训练方法引入到高斯混合模型(GMM)的训练中,并直接采用进化策略实现模型参数的全局训练,以模型与训练数据之间的互信息作为进化过程中个体的适应度。该系统不仅分辨能力强,而且摆脱了局部搜索的缺陷。实验结果表明,这种方法生成的说话人辨认系统的识别性能要优于传统的期望最大化算法(EM)生成的系统。 相似文献
9.
说话人识别是语音识别的一种特殊方式,对于各种领域的身份认证具有得天独厚的优势。以线性预测系数(Linear Predielion Coefficients,LPC)作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。实验结果表明,这种神经网络系统在说话人辨认中是有效的。 相似文献
10.
基于GMM的"时间-空间分布模型(TSDM)"及其在说话人辨认中的应用 总被引:1,自引:0,他引:1
提出了一种新的注册者模型——“时间一空间分布模型(TSDM)”,传统GMM用参数表征训练矢量的空间分布,但舍弃了训练矢量间的时间联系信息,而TSDM利用基于GMM中均值矢量的高阶协方差矩阵,可向训练矢量的空间分布模型中引入一定程度的训练矢量间时间联系.还给出了TSDM的判据生成方法.实验表明,TSDM能在长训练语句时获得与传统GMM相当的识别性能,在短训练语句时表现得更优秀. 相似文献
11.
与文本无关的复合策略说话人辨识系统 总被引:4,自引:1,他引:4
为获得较高的说话人辨识正确率,同时减小辨识系统的时空开销,提出了一种复合策略的辨识系统。采用长时平均频谱作为粗识的特征,定义了相应的辨识判别准则。建立mel-倒谱特征的高斯混合模型(GMM)进行第二步辨识。给出了GMM求解算法的一种简便推导,着重研究了判别阈值,预加重系数,GMM阶次,训练语音长度及辨识语音长度对系统辨识性能的影响。 相似文献
12.
基于GMM全统计参数和SVM的文本无关话者确认 总被引:1,自引:0,他引:1
针对电话语音条件下的文本无关话者确认,提出了一种基于GMM(Gaussian mixturemodel)全统计参数和SVM(support vector machine)的话者确认方法,以克服语音特征参数直接建立SVM话者模型面临的困难.该方法使用由GM(general model)自适应均值得到的GMM提取统计参数,定义了一种合理利用全部统计参数的特征参数,并以此参数及线性核函数建立了具有良好性能的SVM话者模型.与GMM-UBM方法及另一种基于GMM统计参数和SVM的方法在NIST05SRE数据库中的实验比较,结果表明基于GMM全统计参数和SVM的话者确认方法拥有优异的性能. 相似文献
13.
基于非特定发音人拉祜语孤立词语音识别研究 总被引:1,自引:2,他引:1
选用200个拉祜语常用词,以词为识别单元,利用语音识别工具箱HTK开展非特定人拉祜语孤立词的语音识别研究.研究发现:特定发音人的识别率比较稳定,针对非特定发音孤立词,通过增加模型的混合高斯数目,其识别率得到显著提高,使得识别正确率保持在99%以内,为拉祜语孤立词识别提供了有效方法. 相似文献
14.
为了在训练样本受限的情况下,提高汉语方言辨识的效果,提出了一种基于AdaBoost的汉语方言辨识新方法.该方法将GMM与语言模型组成的辨识系统看成一组弱分类器,然后对这组弱分类器所得的分类结果进行加权投票,最终决定汉语方言测试语音的所属类别.实验结果表明:增加GMM或弱分类器的个数,可以有效提高系统的辨识效果;测试语音越长,系统辨识效果越好;当训练样本有限的情况下,采用AdBoost方法比采用ANN方法具有更高的辨识率. 相似文献
15.
针对背景场景重复显现问题,提出了一种基于历史背景的混合高斯模型(History Background-based GMM,HBGMM).相较于传统的混合高斯模型,该模型对历史背景模型进行标记,并通过判决匹配次数快速调整历史背景模型的学习率.同时对模型权重低于阈值下限历史模型和非历史模型进行区别处理,用该方法更新模型权重从而降低误检率,使历史模型尽量避免误删除.实验结果表明,本文提出的基于历史背景的混合高斯背景模型能够实现记忆背景的功能,从而更快地适应场景的变化,减少前景误判. 相似文献
16.
一种新的高斯混合模型参数估计算法 总被引:3,自引:0,他引:3
该文提出了一种高斯混合模型(GMM)参数估计的改进算法.原始的特征向量先经Schmidt正交化消除各维间的相关性,再用数学形态学方法估计出各维概率分布中混合分量的真实个数,最后按真实的混合分量个数用EM算法对各维分别作标量GMM参数估计.该方法能缓解GMM传统参数估计算法引起的“不易扩展”的不便.实验结果表明,将其应用于说话人辨认,能在较大幅度提高训练速度的基础上相对传统GMM参数估计方法获得更高的识别率. 相似文献
17.
视频检测技术是智能交通系统研究中一个重要研究方向,根据交通流视频检测的特点,对基于混合高斯分布模型的自适应背景消除方法进行了改进.包括:背景模型匹配只使用亮度信息;将高斯分布模型按权值、方差排序;使用单目深度信息来确定背景;动态调整采样频度等.实验表明,本文提出的算法,分割效果较佳,分割的实时性大大增强. 相似文献
18.
Unseen handset mismatch is the major source of performance degradation in speaker identifica-tion in telecommunication environments.To alleviate the problem,a maximum likelihood a priori knowledge interpolation (ML-AKI)-based handset mismatch compensation approach is proposed.It first collects a set of handset characteristics of seen handsets to use as the a priori knowledge for representing the space of handsets.During evaluation the characteristics of an unknown test handset are optimally estimated by in-terpolation from the set of the a pdod knowledge.Experimental results on the HTIMIT database show that the ML-AKI method can improve the average speaker identification rate from 60.0% to 74.6% as compared with conventional maximum a posteriori-adapted Gaussian mixture models.The proposed ML-AKI method is a promising method for robust speaker identification. 相似文献
19.
针对数字传输网络中的同步数字体系(SDH)网络设备个体识别问题,提出了一种基于指针调整的细微识别特征。首先,在对SDH指针调整机理分析的基础上,指出了指针调整与设备时钟偏差之间的具体关系,提供了指针调整作为细微识别特征的理论依据;其次,通过检测数据中指针调整状态的变化,提取了指针调整的帧号作为特征序列;最后,以高斯混合模型对一阶差分特征序列进行建模,并将模型参数作为细微识别特征。实验结果表明,基于指针调整的细微特征具有稳定性和区分性,可有效地区分不同的SDH网络设备。 相似文献