首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 578 毫秒
1.
基于矩阵线性插值的说话人自适应算法   总被引:1,自引:0,他引:1  
语音识别技术中说话人快速自适应技术受到普遍关注。最大似然模型插值 (maxim um likelihood model inter-polation,ML MI)算法是一种有效的快速自适应算法 ,它的主要缺点是需要存储大量的特定人模型。为克服这一缺点 ,该文提出一种改进方法——矩阵线性插值自适应算法。该算法用表示说话人特性的矩阵代替 ML MI中的特定人模型进行线性插值。而插值系数由测试者提供的语音数据按照最大似然准则确定。插值后的线性矩阵与非特定人模型相作用得到最终的说话人自适应模型。该算法大大减少了计算存储量 ,且自适应性能基本与 ML MI相当  相似文献   

2.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

3.
研究了与文本无关的说话人辨认系统中一种新的使用基音周期方法。在说话人辨认系统中将矢量量化(VQ)、高斯混合模型(GMM)分类器结合,使用升正弦窗函数加权的线性预测倒谱系数(LPCC)。在训练时为训练集中的每个说话人估计一个一维高斯形式的基音周期概率密度函数;在识别时,将测试语音中提取的基音周期在训练集说话人基音周期概率模型中得到的基音周期概率密度对VQ、GMM分类器的似然测度加权,形成新的似然测度。实验结果表明,使用新的似然测度进行与文本无关的说话人辨认比VQ、GMM分类器的辨认率有较大的提高,码字个数为8,测试时间为8s时,辨认率相对VQ提高约13%。  相似文献   

4.
连续语音识别中的说话人快速自适应技术   总被引:2,自引:0,他引:2  
语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。  相似文献   

5.
为了改善英语自动发音评测中所使用的声学模型,提高评测的准确性,分别采用区分性训练中的最大互信息(MMI)和最小音素错误(MPE)算法训练出隐含Markov声学模型,并采用最大似然线性回归(MLLR)对模型进行非母语说话人的口音自适应,最后应用到英语自动发音评测系统中。实验结果表明:分别对MMI和MPE方法训练所得模型作自适应后的机器总分与人工评分之间的相关度在说话人层次上分别提高了3.3%和5.2%,证明了在英语发音评价中区分性模型的实用性和有效性。  相似文献   

6.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。  相似文献   

7.
针对非对称语料库情况下的语音转换,提出了一种基于混合Gauss归一化的语音转换方法。通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型。利用训练得到的模型自适应参数,提出了基于Gauss归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合Gauss归一化的方法。针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化。最后通过主客观实验对提出的算法的有效性进行了仿真和验证。实验结果表明:该文提出的基于混合Gauss归一化的语音转换方法,在倒谱失真度、转换语音的目标倾向度以及感知质量上,都获得了接近基于对称语音库的传统Gauss混合模型(Gaussian mixture model,GMM)方法的效果。  相似文献   

8.
一种量子神经网络说话人识别方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对说话人语音特征空间边界存在模糊性的特点,构建了一种量子神经网络识别分类器,用于说话人识别,以改善存在交叉数据的语音特征参数的分类效果。提出了一种基于人工免疫算法的量子间隔训练方法,以改善传统量子神经网络训练算法的不足。以TIMIT语音库为测试语音,与传统BP网络和基于常规梯度下降量子间隔训练算法的量子神经网络做对比实验。实验证明,算法能有效提高说话人识别系统的识别率,同时与高斯混合模型相比,具有更好的抗噪声性能。  相似文献   

9.
基于最大互信息的离散隐马尔柯夫模型训练方法   总被引:4,自引:1,他引:3  
在基于隐马尔柯夫模型(HMM)的语音识别系统中,模型训练最常用的算法是Baum-Welch算法,该算法具有快速收敛及保证每步迭代模型的似然概率单调增的优点,但它基于最大似然训练准则,而该准则不能将各个模型很好地分析,这直接导致了识别时的错误,鉴于最大互信息可以克服这一缺点,提出了一种基于最大互信息的训练方法,该方法借助于梯度,调整参数以使模型与训练数据的互信息最大,实验结果表明,使用该方法使系统的识别性能得到了一定的改善。  相似文献   

10.
为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度.为验证基于概率修正PLDA模型的有效性,进行了NIST SRE10 corecore测试集在3种不同时长的评测实验,以及NIST 2014 i-vector machine learning challenge测试任务.结果表明,相较于传统的PLDA训练模型,通过语音时长的约束提高了说话人识别性能.  相似文献   

11.
基于非特定发音人拉祜语孤立词语音识别研究   总被引:3,自引:2,他引:1  
选用200个拉祜语常用词,以词为识别单元,利用语音识别工具箱HTK开展非特定人拉祜语孤立词的语音识别研究.研究发现:特定发音人的识别率比较稳定,针对非特定发音孤立词,通过增加模型的混合高斯数目,其识别率得到显著提高,使得识别正确率保持在99%以内,为拉祜语孤立词识别提供了有效方法.  相似文献   

12.
在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高.  相似文献   

13.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

14.
A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With only 3 adaptation sentences, the performance shows a 12.12% word error rate reduction. As the number of adaptation sentences increases, the performance saturates quickly. To improve the behavior of TMLI for large amounts of adaptation data, the TMLI MAP method which combines TMLI with MAP technique is proposed. Experimental results show TMLI MAP achieved better recognition accuracy than MAP and MLLR MAP for both small and large amounts of adaptation data.  相似文献   

15.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

16.
在说话人识别系统中,训练语音与测试语音的话机类型失配会使说话人识别系统识别性能显著下降。为了提高说话人识别系统的稳健性,在说话人模型合成和话机归一化的基础上提出一种新的信道补偿方法HNSSM(handsetnormalizationinsynthesizedspeakmodel),综合模型和分数两个方面对系统进行信道补偿。1999年美国国家标准技术局说话人识别评测语音库上的实验表明,采用新的信道补偿方法使系统在等错误率和最小检测代价上比仅采用倒谱均值减的基线系统分别降低了39.4%和20.9%,而且优于只采用说话人模型合成或话机归一化补偿的系统。  相似文献   

17.
两级决策的开集说话人辨认方法   总被引:10,自引:0,他引:10  
为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。  相似文献   

18.
该文指出了常用的倒谱均值归一方法在去除信道因素的同时,也去掉了一些说话人的语音特征,因此,在信道失配的环境下鲁棒性较差。提出利用信道间差异,补偿信道失配的信道空间映射方法,并构建了一个与文本无关对随机信道鲁棒的说话人识别系统。实验结果表明:对来自随机信道的说话人语音,第1名和前30名的正确识别率,与实验室基线系统的性能比较,分别提高了5.4%和18.6%。寻找并补偿信道间的差异,是一种提高说话人识别鲁棒性的有效方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号