首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
源-目标说话人声音转换是一种变换说话人声音特征的技术,它将源说话人的声音转换成目标说话人的声音.其中,声道参数的转换是获得高质量重建语音的关键,所以选择声道共振峰参数作为待转换的特征参数,利用线性预测求根法提取共振峰参数.为了克服分类线性转换算法(CLT)中分类不准带来的误差,引入了分类线性加权转换的策略,给出了一种基于径向基函数神经网络的分类线性加权转换算法(WCLT).在微软汉语普通话语音数据库上对转换语音分别作了客观和主观评估,验证了分类数目和训练集对两种转换算法的影响.实验结果表明,WCLT算法的转换效果优于CLT算法,一定程度上克服了高斯混合模型的转换算法(GMM)转换语音时,频谱过分光滑的现象,并在只有较少训练集数据时也能得到较好的转换效果.  相似文献   

2.
提出了一种新的语音说话人转换算法,利用变分贝叶斯方法估计高斯混合模型参数,进而将其应用于语音转换的声道谱参数映射过程,实现说话人身份转换.将变分贝叶斯算法用于模型参数的估计,一方面解决了训练数据量稀少情况下容易使模型产生"过拟合"的问题,另一方面通过将模型参数概率化,使得参数估计问题不再是"点估计",而成为了"全局估计",因此在一定程度上提高了模型的精度.主观和客观实验结果表明:将基于变分贝叶斯估计得到的统计模型用于语音声道谱参数的转换,明显提高了在训练数据稀少的情况下系统的鲁棒性,同时转换后语音的音质和说话人个性特征均优于经典的语音转换系统.  相似文献   

3.
语音转换是将源说话人的个性特征转换为目标说话人个性特征的过程。主要研究了基于STRAIGHT模型的语音转换系统原理及实现过程。通过STRAIGHT模型提取目标语音和源语音的基本频率以及平滑的声道频谱作为特征参数,并将声道频谱转换为LSF参数,进行时间对齐和GMM训练。从实验结果数据分析可以看出:由STRAIGHT模型提取的参数很好地避免了声道谱过平滑的现象,合成后的目标语音与源语音的相似度较高。  相似文献   

4.
汉语语音合成的研究进展   总被引:2,自引:0,他引:2  
为解决如何让机器像人那样说话的问题,综述了近年来汉语语音合成技术的进步和发展;描述了汉语语音合成系统的设计方法;对基于汉语语音特点的语音合成过程中的一些关键技术和原理进行了详细的分析和比较;阐述了语音合成在多媒体等方面上的应用以及目前评价语音合成系统性能的一些新方法,并对当前语音合成技术的研究热点和语音合成技术存在的问题进行了分析,为语音合成技术的进一步研究提供了借鉴作用。  相似文献   

5.
语音是人类相互交流和通信最方便快捷的手段,而语音中的韵律包含了说话人的意图信息,在帮助听者理解语言及意图时十分有用.对于韵律的研究是语音合成技术中的重要研究课题.通过介绍语音韵律控制技术及其在TTS中应用的一些情况,内容包括语音韵律研究的基本情况及今后的工作重点,语音合成技术中韵律调整的方法,以及TTS中的韵律生成模型和声学模块.  相似文献   

6.
声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。该系统选择共振峰频率和带宽及基音周期等声音特征参数,分别使用LPC求根法和自相关法提取这些特征参数。矢量量化的码本映射方法实现声音特征转换,共振峰参数法合成转换语音。实验中对5个国际音标与语音中的元音进行转换,并使用MFCC听觉倒谱法对转换结果进行评估,其中男声到女声的转换后的语音到目标语音的MFCC距离比源语音到目标语音MFCC距离平均减小48.8%。  相似文献   

7.
提出并实现了一种基于广义人工神经网络和STRAIGHT模型的高效基频轨迹跟踪算法.一方面,STRAIGHT模型可以对语音信号的基频进行较大幅度的修改而不至于引起合成语音质量的下降.另一方面,利用人工神经网络优良的预测能力,学习源说话人和目标说话人的基频轨迹之间的内在联系,实现基音频率的转换.语谱图分析、主观意见分评价结果表明:提出的基频轨迹跟踪算法在合成语音质量及目标特征映射上都远远好于传统的基频转换算法.  相似文献   

8.
语音是人类相互交流和通信最方便快捷的手段,而语音中的韵律包含了说话人的意图信息,在帮助听者理解语言及意图时十分有用.韵律的研究是语音合成技术中的重要研究课题.藏语语音韵律控制技术及其在藏语TTS中的应用,内容包括藏语语音韵律研究的基本情况及今后的工作重点,藏语语音合成技术中韵律调整的方法以及藏语TTS 中的韵律生成模型和声学模块.  相似文献   

9.
提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过对同一人不同年龄段的语音进行转换合成,由年龄较大语音向年龄较小语音转换时,转换合成得到的语音频谱平均距离得到明显减小,转换效果较好,而从年龄较小语音向年龄较大语音转换时,频谱平均距离减少较小,同时女性年龄语音转换的效果和自然度都好于男性.  相似文献   

10.
在VC++环境下,提取PLAR特征参数,基于听觉特性和语谱特性的语音增强器作为预处理器,对语音信号首先进行降噪处理,建立了基于DTW的抗噪声说话人识别系统.实验结果表明,即使在信噪比比较低的情况下,该系统都会在一定程度上提高多种噪声环境下说话人识剐系统的识别性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号