首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决语音识别系统实用中的说话人口音快速自适应问题,提出了一种动态说话人选择性训练方法。基于说话人选择性训练方法,采用基于Gauss混合模型似然分数计算的置信测度选择训练用说话人,改变训练用说话人的绝对数目选取方式,提高了选取的效能并拓展了选取标准的推广性。根据各个训练用说话人同被适应说话人的不同似然程度,加权地合成动态说话人选择性训练的语音模型,提高了自适应训练的效果。实验表明:该方法使识别率从80.16%提高到84.12%,相对误识率降低了19.96%,在实用中提高了基线系统的识别性能。  相似文献   

2.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

3.
提出了一种新的语音说话人转换算法,利用变分贝叶斯方法估计高斯混合模型参数,进而将其应用于语音转换的声道谱参数映射过程,实现说话人身份转换.将变分贝叶斯算法用于模型参数的估计,一方面解决了训练数据量稀少情况下容易使模型产生"过拟合"的问题,另一方面通过将模型参数概率化,使得参数估计问题不再是"点估计",而成为了"全局估计",因此在一定程度上提高了模型的精度.主观和客观实验结果表明:将基于变分贝叶斯估计得到的统计模型用于语音声道谱参数的转换,明显提高了在训练数据稀少的情况下系统的鲁棒性,同时转换后语音的音质和说话人个性特征均优于经典的语音转换系统.  相似文献   

4.
提出了一种用于情感语音合成的基频转换方法.该方法使用定量目标逼近(q TA)特征作为语音音节层的基频描述,并用高斯双向联想贮存器(GBAM)实现中性合成语音音节层q TA参数向目标情感语音音节层q TA参数的转换.在模型训练阶段,首先基于中性语料库和统计参数语音合成方法构建中性语音合成系统;然后利用少量情感录音数据,将从情感语音文本对应的中性合成语音中提取的q TA参数作为源数据,将情感录音中提取的q TA参数作为目标数据,进行GBAM转换模型的训练.在情感语音合成阶段,利用训练得到的GABM模型,实现中性合成语音基频特征向目标情感的转换.实验结果表明,该方法在目标情感数据较少的情况下可以取得比最大似然线性回归(MLLR)模型自适应方法更好的情感表现力.  相似文献   

5.
源-目标说话人声音转换是一种变换说话人声音特征的技术,它将源说话人的声音转换成目标说话人的声音.其中,声道参数的转换是获得高质量重建语音的关键,所以选择声道共振峰参数作为待转换的特征参数,利用线性预测求根法提取共振峰参数.为了克服分类线性转换算法(CLT)中分类不准带来的误差,引入了分类线性加权转换的策略,给出了一种基于径向基函数神经网络的分类线性加权转换算法(WCLT).在微软汉语普通话语音数据库上对转换语音分别作了客观和主观评估,验证了分类数目和训练集对两种转换算法的影响.实验结果表明,WCLT算法的转换效果优于CLT算法,一定程度上克服了高斯混合模型的转换算法(GMM)转换语音时,频谱过分光滑的现象,并在只有较少训练集数据时也能得到较好的转换效果.  相似文献   

6.
语音转换是将源说话人的个性特征转换为目标说话人个性特征的过程。主要研究了基于STRAIGHT模型的语音转换系统原理及实现过程。通过STRAIGHT模型提取目标语音和源语音的基本频率以及平滑的声道频谱作为特征参数,并将声道频谱转换为LSF参数,进行时间对齐和GMM训练。从实验结果数据分析可以看出:由STRAIGHT模型提取的参数很好地避免了声道谱过平滑的现象,合成后的目标语音与源语音的相似度较高。  相似文献   

7.
为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。  相似文献   

8.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。  相似文献   

9.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

10.
针对特征语音说话人自适应算法的缺陷,提出了基于结构化特征语音模型的区别性说话人自适应方法.该算法能根据自适应数据量调整自适应参数,并采用基于最大互信息量准则的区别性参数估计方法,进一步提高了自适应性能.有监督自适应的实验结果表明,在仅有一句自适应语句的情况下系统误识率相对下降了6.7%,同时算法表现出了优于特征语音自适应方法的渐进性能.  相似文献   

11.
该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话人识别方法。基于GMM-UBM(通用背景模型)识别框架,在自适应训练和测试阶段计算并保存自适应训练语句和测试语句在UBM上使特征帧得分最高的Gauss分量编号(GMM token)出现的比例(配比),然后在测试阶段计算测试语句和自适应训练语句的GMM托肯分布的配比的相似度GTRS,当GTRS小于某阈值时对测试得分乘以一个惩罚因子,将结果作为测试语句的最终得分。在MASC数据库上进行的实验表明,该方法能够使系统识别性能有一定的提升。  相似文献   

12.
基于高斯混合模型(GMM)的语音帧谱包络转换算法容易导致转换后的语音谱包络过平滑、语音细节特征受损。通过对GMM中协方差的准确性与谱包络过平滑现象的研究,提出了一种基于预测谱偏移的自适应GMM建模方法。该方法采用平滑加权算法对目标谱的偏移进行建模,并根据语音帧信息自适应调节预测谱偏移项的比例系数,结合高斯混合模型共同实现对谱包络的转换。实验结果表明,该建模方法能够有效抑制转换后语音谱包络的失真现象,提高转换后语音的清晰度、自然度和可懂度。  相似文献   

13.
语音识别模型中帧间独立假设在给模型计算带来简洁的同时,不可避免地降低了模型精度,增加了识别错误。该文旨在寻找一种既能满足帧间独立假设又能保持语音信息的特征。分别提出了基于k均值和基于归一化类内方差的语音识别自适应聚类特征提取算法,可以自适应地实现聚类特征流的提取。将该自适应特征分别应用在Gauss混合模型-隐Markov模型、基于段长分布的隐Markov模型和上下文相关的深度神经网络模型这3种语音识别模型中,与基线系统进行了实验对比。结果表明:采用基于归一化类内方差的自适应特征可以使得3种语言模型的识别错误率分别相对下降10.53%、5.17%和2.65%,展示了语音自适应聚类特征的良好性能。  相似文献   

14.
防止假冒者闯入说话人识别系统   总被引:3,自引:0,他引:3  
如何防止假冒者闯入,是说话人识别研究中的重要课题之一.回放高保真录音和模仿目标说话人声音是假冒者闯入说话人识别系统的2种常见方式.该文针对用高保真录音来闯入系统进行了初步探索.高保真录音设备是一个模数转换系统,语音通过它会发生一些特性变化.通过检测语音中是否存在高保真录音设备的特性,可以检测假冒者是否在使用回放高保真录音来闯入系统.以Gauss混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)说话人识别系统为基础,用语音数据的静音段对信道进行建模,检测待识别语音与训练语音的信道是否相同,进而判断是否属于高保真录音闯入.实验表明,加入了基于静音段的信道检测后,说话人识别系统对含有假冒者闯入的测试数据的等错误率下降了40%左右.  相似文献   

15.
该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数据通常会比较短,首先训练一个通用背景模型,然后用最大后验概率(MAP)准则得到相应片段的模型。在NIST 2004年举办的说话人日志评测任务数据集RT-04S上的实验结果表明:该系统与国际主流系统相比有一定的优势。  相似文献   

16.
一种量子神经网络说话人识别方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对说话人语音特征空间边界存在模糊性的特点,构建了一种量子神经网络识别分类器,用于说话人识别,以改善存在交叉数据的语音特征参数的分类效果。提出了一种基于人工免疫算法的量子间隔训练方法,以改善传统量子神经网络训练算法的不足。以TIMIT语音库为测试语音,与传统BP网络和基于常规梯度下降量子间隔训练算法的量子神经网络做对比实验。实验证明,算法能有效提高说话人识别系统的识别率,同时与高斯混合模型相比,具有更好的抗噪声性能。  相似文献   

17.
基于目标声源方位已知的双麦克风噪声抑制   总被引:1,自引:0,他引:1  
复杂噪声抑制是语音技术实用化的基础。很多应用中,目标说话人的方位相对固定,而噪声的类型、个数、位置均是未知的,且可能随时间变化。针对这类应用,该文提出一种基于语音信号时频分布稀疏性的半盲双麦克风噪声抑制方法。首先假定说话人方位已知且固定,并根据方位关系建立其空间方位模型,实际噪声的空间方位模型根据观测数据在目标说话人空间方位模型上自适应得到;然后对每个时频点进行分类,并建立二元掩膜;最后利用二元掩膜重构目标语音。实验结果显示:该方法在复杂噪声环境下仍具有显著的降噪效果,且语音失真度较低,其降噪性能接近于噪声源方位已知下的非盲降噪方法。  相似文献   

18.
针对开集声纹识别的自适应阈值计算问题, 提出一种基于大津算法和深度学习的阈值计算方法. 首先, 采用三层受限Boltzmann机堆叠而成的深度置信网络从Mel倒谱系数中提取语音深层特征; 其次, 通过Gauss混合模型计算特征的相似度值, 对特征的相似度值使用大津算法计算阈值. 实验结果表明, 该方法识别效果较理想, 与等错误率计算阈值方法相比, 具有更高的识别准确率.  相似文献   

19.
针对经典隐含Markov模型忽略了语音信号之间的依存关系的问题,提出一种线性特征变换——空间相关性变换,利用同一个说话人的不同语音单元之间的相关性(空间相关性)得到鉴别性能更好的新特征。该变换的最优变换矩阵在最小协方差准则下得到。识别系统采用新特征及其模型参数代替原特征及其模型参数进行Viterbi搜索。实现空间相关性变换的关键是最优变换矩阵的计算,提出了两种相应的算法。实验结果表明:该方法在说话人无关识别系统上取得了比自适应方法更好的性能,同时该方法与自适应方法结合应用可进一步提高系统性能。  相似文献   

20.
中国地域辽阔,汉语包括多种方言。方言转换技术可实现方言间语音的转换,丰富语音交流的方式,增强语音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异;探讨了普通话与沈阳方言转换的可行性;提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模型和基于加权有限状态机的特殊词识别算法;通过基本转换和说话人音色还原构建了方言转换系统,实现了实时普通话语音输入、沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号