期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王海祥戴蓓蒨陆伟张剑《中国科学技术大学学报》2006,36(11):1153-1159

源-目标说话人声音转换是一种变换说话人声音特征的技术,它将源说话人的声音转换成目标说话人的声音.其中,声道参数的转换是获得高质量重建语音的关键,所以选择声道共振峰参数作为待转换的特征参数,利用线性预测求根法提取共振峰参数.为了克服分类线性转换算法(CLT)中分类不准带来的误差,引入了分类线性加权转换的策略,给出了一种基于径向基函数神经网络的分类线性加权转换算法(WCLT).在微软汉语普通话语音数据库上对转换语音分别作了客观和主观评估,验证了分类数目和训练集对两种转换算法的影响.实验结果表明,WCLT算法的转换效果优于CLT算法,一定程度上克服了高斯混合模型的转换算法(GMM)转换语音时,频谱过分光滑的现象,并在只有较少训练集数据时也能得到较好的转换效果. 相似文献

2.

声音转换实验系统的研究与实现

刘金凤符敏程德福《南京理工大学学报(自然科学版)》2005,29(Z1):211-214

声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。该系统选择共振峰频率和带宽及基音周期等声音特征参数,分别使用LPC求根法和自相关法提取这些特征参数。矢量量化的码本映射方法实现声音特征转换,共振峰参数法合成转换语音。实验中对5个国际音标与语音中的元音进行转换,并使用MFCC听觉倒谱法对转换结果进行评估,其中男声到女声的转换后的语音到目标语音的MFCC距离比源语音到目标语音MFCC距离平均减小48.8%。相似文献

3.

基频轨迹转换算法及在语音转换系统中的应用研究

陈芝张玲华《南京邮电大学学报(自然科学版)》2010,30(5)

提出并实现了一种基于广义人工神经网络和STRAIGHT模型的高效基频轨迹跟踪算法.一方面,STRAIGHT模型可以对语音信号的基频进行较大幅度的修改而不至于引起合成语音质量的下降.另一方面,利用人工神经网络优良的预测能力,学习源说话人和目标说话人的基频轨迹之间的内在联系,实现基音频率的转换.语谱图分析、主观意见分评价结果表明:提出的基频轨迹跟踪算法在合成语音质量及目标特征映射上都远远好于传统的基频转换算法. 相似文献

4.

带有频谱补偿的基频修改算法

蒋丹宁蔡莲红陶建华《清华大学学报(自然科学版)》2004,44(7):974-977

针对当前多数在基于拼接的语音合成系统中使用的基频修改算法缺少对频谱进行补偿的情况,提出了一种带有频谱补偿的基频修改算法.在传统基音同步叠加(PSOLA)算法的基础上,以共振峰参数和频谱倾斜参数描述频谱特性,通过对频谱参数进行预测及修改,在修改基频的同时,有效地补偿了频谱特性.频谱参数的预测公式由各基频下的条件概率密度函数导出,频谱参数的修改通过正弦模型实现.实验表明,对于不同的汉语元音、基频修改因子和听者,在平均86.25%的情况下,该算法较传统PSOLA算法能够获得更接近自然音质的语音. 相似文献

5.

基于STRAIGHT模型的语音转换系统研究

《山西科技》2020,(5)

语音转换是将源说话人的个性特征转换为目标说话人个性特征的过程。主要研究了基于STRAIGHT模型的语音转换系统原理及实现过程。通过STRAIGHT模型提取目标语音和源语音的基本频率以及平滑的声道频谱作为特征参数,并将声道频谱转换为LSF参数,进行时间对齐和GMM训练。从实验结果数据分析可以看出:由STRAIGHT模型提取的参数很好地避免了声道谱过平滑的现象,合成后的目标语音与源语音的相似度较高。相似文献

6.

汉语普通话与沈阳方言转换的研究

贾珈蔡莲红李明张帅《清华大学学报(自然科学版)》2009,(Z1)

中国地域辽阔,汉语包括多种方言。方言转换技术可实现方言间语音的转换,丰富语音交流的方式,增强语音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异;探讨了普通话与沈阳方言转换的可行性;提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模型和基于加权有限状态机的特殊词识别算法;通过基本转换和说话人音色还原构建了方言转换系统,实现了实时普通话语音输入、沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。相似文献

7.

基于声道长度对齐的年龄语音转换

《中国科学技术大学学报》2015,(7)

提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过对同一人不同年龄段的语音进行转换合成,由年龄较大语音向年龄较小语音转换时,转换合成得到的语音频谱平均距离得到明显减小,转换效果较好,而从年龄较小语音向年龄较大语音转换时,频谱平均距离减少较小,同时女性年龄语音转换的效果和自然度都好于男性. 相似文献

8.

汉语情感语音合成的研究

刘震景新幸《科技信息》2008,(9):78-79

本文探讨了一种汉语情感语音合成的方案。首先,根据汉语韵律的分层特点,采用SFC基频时长韵律模型,从语料库中提取出反映汉语情感特征的基频参数和时长参数曲线;然后,采用STRAIGHT语音分析与合成算法,用提取出的反映情感特征的韵律参数控制合成过程．从而合成出带有情感的汉语语音。相似文献

9.

一种稀少训练数据条件下的语音转换算法

徐宁杨震《南京邮电大学学报(自然科学版)》2010,30(5)

提出了一种新的语音说话人转换算法,利用变分贝叶斯方法估计高斯混合模型参数,进而将其应用于语音转换的声道谱参数映射过程,实现说话人身份转换.将变分贝叶斯算法用于模型参数的估计,一方面解决了训练数据量稀少情况下容易使模型产生"过拟合"的问题,另一方面通过将模型参数概率化,使得参数估计问题不再是"点估计",而成为了"全局估计",因此在一定程度上提高了模型的精度.主观和客观实验结果表明:将基于变分贝叶斯估计得到的统计模型用于语音声道谱参数的转换,明显提高了在训练数据稀少的情况下系统的鲁棒性,同时转换后语音的音质和说话人个性特征均优于经典的语音转换系统. 相似文献

10.

利用谱包络变换后LPC系数实现频谱搬移

下载免费PDF全文

张辉李波王宝良《空军工程大学学报(自然科学版)》2006,7(6):62-64

频谱包络转换是语音转换中的一项重要内容,基于双线性转换函数进行频谱搬移的方法可以有效的进行谱包络转换,并且基于小语料库训练时仍能得到稳定的转换谱包络。本文基于LPC分析,在求解频谱搬移后的系统单位冲激响应的基础上,提出求解频谱搬移后LPC系数的方法,以此来实现频谱包络的变换,取得较好的效果。相似文献

11.

语声转换技术发展及展望

简志华杨震《南京邮电大学学报(自然科学版)》2007,27(6):88-94

语声转换通过改变语音信号的声学特征参数来调整语音的个性特征,从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样.系统地介绍了当前语声转换技术的发展状况,在描述语声转换技术的应用场景和系统框架的基础上,着重阐述了系统的转换模块,即声道特性的转换和韵律转换,特别是重点介绍了声道特性的转换算法.简要地介绍了系统性能的测试方法,最后对全文进行了总结,并针对当前语声转换技术还存在的一些问题,对未来的发展进行了展望. 相似文献

12.

基于多窗频谱估计和平滑幅度谱包络的MFCC改进算法 总被引：1，自引：0，他引：1

张怡然白静王力《科学技术与工程》2014,14(19)

语音的特征提取是说话人识别系统中的关键问题。本文在传统的MFCC参数的基础上,提出一种改进的MFCC特征提取算法。该算法着眼于语音的前端处理,在预处理阶段,利用SWCE窗函数,对信号进行多窗频谱估计。并对得到的频谱进行平滑处理,得到信号的谱包络。然后对信号的谱包络进行计算,得到改进的MFCC参数。实验表明,在不同噪声环境下,与传统的MFCC算法相比,改进的算法识别率提高四个百分点以上。相似文献

13.

基于概率修正PLDA的说话人识别系统

《天津大学学报(自然科学与工程技术版)》2015,(8)

为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度.为验证基于概率修正PLDA模型的有效性,进行了NIST SRE10 corecore测试集在3种不同时长的评测实验,以及NIST 2014 i-vector machine learning challenge测试任务.结果表明,相较于传统的PLDA训练模型,通过语音时长的约束提高了说话人识别性能. 相似文献

14.

基于多窗频谱估计和平滑幅度谱包络的Mel频率倒谱系数(MFCC)改进算法

张怡然白静王力《科学技术与工程》2014,(19)

语音的特征提取是说话人识别系统中的关键问题。在传统的Mel频率倒谱系数(MFCC)参数的基础上,提出一种改进的MFCC特征提取算法。该算法着眼于语音的前端处理,在预处理阶段,利用SWCE窗函数,对信号进行多窗频谱估计。并对得到的频谱进行平滑处理,得到信号的谱包络。然后对信号的谱包络进行计算,得到改进的MFCC参数。实验表明,在不同噪声环境下,与传统的MFCC算法相比,改进的算法识别率提高四个百分点以上。相似文献

15.

汉语数码语音识别中一种新的抗噪声特征参数 总被引：1，自引：1，他引：0

张涛郜彦华《河南科技大学学报(自然科学版)》2005,26(3):46-48

为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以10个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的包络以提高信噪比,然后再对所得包络进行峰值提取得到汉语数码语音的峰值特征。实验结果表明,在信噪比大于5dB时,用该方法得到的峰值特征具有一定的抗噪性。相似文献

16.

基于超音段韵律特征和GMM-UBM的文本无关的说话人识别

许东星戴蓓缮刘青松许敏强《中国科学技术大学学报》2010,40(2)

提出一种采用超音段韵律特征和GMM-UBM模型结构的文本无关的说话人识别方法,用多尺度小波分析方法从短时倒谱参数MFCC和基频F0随时间变化的韵律中分别提取可用于文本无关说话人识别的超音段韵律特征参数PMFCC和PF0,并组成联合参数PMFCCF0.在NIST068side-1side复杂背景电话手机语音数据库上的说话人确认实验则表明,采用一阶小波分析方法提取的超音段韵律参数PMFCC的识别性能与短时MFCC相当,采用超音段韵律特征PMFCCF0的系统确认性能比采用短时MFCC系统有较大的提高.在微软数据库进行不同信噪比测试语音的说话人辨认实验表明,PMFCCF0有比短时MFCC更好的噪声鲁棒性. 相似文献

17.

基于目标逼近特征和双向联想贮存器的情感语音基频转换

《天津大学学报(自然科学与工程技术版)》2015,(8)

提出了一种用于情感语音合成的基频转换方法.该方法使用定量目标逼近(q TA)特征作为语音音节层的基频描述,并用高斯双向联想贮存器(GBAM)实现中性合成语音音节层q TA参数向目标情感语音音节层q TA参数的转换.在模型训练阶段,首先基于中性语料库和统计参数语音合成方法构建中性语音合成系统;然后利用少量情感录音数据,将从情感语音文本对应的中性合成语音中提取的q TA参数作为源数据,将情感录音中提取的q TA参数作为目标数据,进行GBAM转换模型的训练.在情感语音合成阶段,利用训练得到的GABM模型,实现中性合成语音基频特征向目标情感的转换.实验结果表明,该方法在目标情感数据较少的情况下可以取得比最大似然线性回归(MLLR)模型自适应方法更好的情感表现力. 相似文献

18.

基于浊音语音谐波谱子带加权重建的抗噪声说话人识别 总被引：1，自引：0，他引：1

曾毓敏吴镇扬《东南大学学报(自然科学版)》2008,38(6)

提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率. 相似文献

19.

蒙古族长调《圣》韵律声学特征研究

方华萍李永宏《西北民族学院学报》2012,33(2)

通过采集蒙古族长调《圣主的两匹骏马》的语音信号,运用实验语音声学分析方法,进行了信号标注和参数提取.文章是通过基频和能量参数来分析长调节拍的基本韵律特征,分析歌唱共振峰和颤音的声学表现,探讨其发音原理和演唱技巧,以数字化方式更为深入和直观地研究蒙古族长调的风格特色. 相似文献

20.

基于STRAIGHT算法的个性化语音生成方法

甘振业杨鸿武《甘肃科技》2010,26(4):34-35,86

介绍了一种基于STRAIGHT语音修改算法的个性化语音的方法。对输入的语音提取基本信息,并进行频谱分析;利用STRAIGHT算法对相关参数进行修改;通过STRAIGHT合成器生成新的个性化的语音。实验结果表明,该方法可以得到高质量的个性化合成语音,MOS得分为4.18分。相似文献