首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。  相似文献   

2.
提出了一种用于情感语音合成的基频转换方法.该方法使用定量目标逼近(q TA)特征作为语音音节层的基频描述,并用高斯双向联想贮存器(GBAM)实现中性合成语音音节层q TA参数向目标情感语音音节层q TA参数的转换.在模型训练阶段,首先基于中性语料库和统计参数语音合成方法构建中性语音合成系统;然后利用少量情感录音数据,将从情感语音文本对应的中性合成语音中提取的q TA参数作为源数据,将情感录音中提取的q TA参数作为目标数据,进行GBAM转换模型的训练.在情感语音合成阶段,利用训练得到的GABM模型,实现中性合成语音基频特征向目标情感的转换.实验结果表明,该方法在目标情感数据较少的情况下可以取得比最大似然线性回归(MLLR)模型自适应方法更好的情感表现力.  相似文献   

3.
针对几百小时粗标注大语料库, 提出一种新颖的语音合成系统构建方法。首先, 借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。 然后, 为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题, 优化了传统的训练流程, 在不损失声学模型准确性的前提下, 显著提高了模型的训练速度。主观实验表明, 与具有精标注的小语料库相比, 引入粗标注的大语料库可以带来0.5分左右的MOS提升。  相似文献   

4.
近年来提出的基于隐Markov模型的单元挑选语音合成方法,较好地解决了传统拼接合成中存在的依赖较多人工干预以及合成效果不稳定性的问题,但该方法在综合不同声学统计模型度量时使用的模型权值无法自动训练获得,且人工优化较为困难。该文提出了一种基于合成质量预测的模型权值优化方法。该方法首先收集较少的人工测听结果并采用多元自适应回归样条构建针对不同权值下合成语音质量的预测模型,然后基于该预测模型利用模式搜索算法自动搜索最优权值。实验证明该方法可以有效优化模型权值并改善合成语音的自然度。  相似文献   

5.
为了合成能够模拟表达说话人的情感状态的语音,提出一种基于情感基音模板的情感语音合成方法.该方法分别建立高兴、愤怒、悲伤和中立4种不同情感下的韵母基音模板库,建立4种声调模型,统计分析语音库中情感语音的韵律特征参数,运用基音同步叠加算法(PSOLA)合成含情感色彩的语音.实验以音节为合成单位,根据情感特征参数的统计分析结果调节合成语音的韵律特征,合成各种情感的语音.仿真实验结果表明:用情感基音模板合成的目标情感语音具有目标情感的音质色彩,再通过韵律参数调节,可合成较理想的情感语音.该方法可用于增加语音合成系统的智能化,提高人机交互的能力.  相似文献   

6.
韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而获得最优标注。以词为单位提取了静音时长,与传统以帧为单位的声学特征相比更具有明确的物理意义,与韵律边界的联系更加紧密。实验结果表明:相比传统声学特征,该文所采用的静音时长特征使自动韵律标注的性能有所提高;相比直接特征层面的方法,决策融合方法更好地结合了声学和文本的特征,进一步提高了标注的性能。  相似文献   

7.
文章根据藏语的语音规律和特点,以统计声学模型为基础,对藏语语音合成系统中的语料库设计与建设、韵律信息及标注、模型设计与训练及语音合成等关键技术进行了分析,对藏语语音合成系统的实现具有一定的参考价值。  相似文献   

8.
针对非对称语料库情况下的语音转换,提出了一种基于混合Gauss归一化的语音转换方法。通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型。利用训练得到的模型自适应参数,提出了基于Gauss归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合Gauss归一化的方法。针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化。最后通过主客观实验对提出的算法的有效性进行了仿真和验证。实验结果表明:该文提出的基于混合Gauss归一化的语音转换方法,在倒谱失真度、转换语音的目标倾向度以及感知质量上,都获得了接近基于对称语音库的传统Gauss混合模型(Gaussian mixture model,GMM)方法的效果。  相似文献   

9.
由于电子化语言资源较为匮乏,缅甸语语音合成的研究相对滞后.针对该问题,以开发缅甸语语音合成应用系统为目的,设计并实现了一个基于HMM的语音合成系统.首先,为了使计算机按输入文本合成出正确的读音,提出并设计了缅甸语的注音方案,其中重点解决了缅甸语中的变音和变调问题;然后,根据缅甸语的语音特点选取声母及带声调的韵母作为合成基元,并按此设计上下文属性和问题集;最后,基于HTS平台,完整实现了音子自动切分、HMM声学模型训练及语音合成.实验结果表明,该缅甸语语音合成系统具有可行性,可作为后续研究的基线系统.  相似文献   

10.
对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用随机化的方式产生与维吾尔语输出层对应的权重值,采用反向传播的方式,利用维吾尔语语音数据更新所有权重来训练维吾尔语声学模型。实验结果表明:该方法使维吾尔语转写和听写识别错误率分别比基线系统相对降低了20%和30%。该方法利用汉语大数据来训练神经网络的隐藏层,使维吾尔语声学模型能在一个较好的初始权重网络上进行训练,增强了网络的鲁棒性。  相似文献   

11.
This paper proposes a novel voice conversion method by frequency warping. The frequency warping function is generated based on mapping formants of the source speaker and the target speaker. In addition to frequency warping, fundamental frequency adjustment, spectral envelope equalization, breathiness addition, and duration modification are also used to improve the similarity to the target speaker. The proposed voice conversion method needs only a very small amount of training data for generating the warping function, thereby greatly facilitating its application. Systems based on the proposed method were used for the 2007 TC-STAR intra-lingual voice conversion evaluation for English and Spanish and a cross-lingual voice conversion evaluation for Spanish. The evaluation results show that the proposed method can achieve a much better quality of converted speech than other methods as well as a good balance between quality and similarity. The IBM1 system was ranked No. 1 for English evaluation and No. 2 for Spanish evaluation. Evaluation results also show that the proposed method is a convenient and competitive method for cross-lingual voice conversion tasks.  相似文献   

12.
基于GMM全统计参数和SVM的文本无关话者确认   总被引:1,自引:0,他引:1  
针对电话语音条件下的文本无关话者确认,提出了一种基于GMM(Gaussian mixturemodel)全统计参数和SVM(support vector machine)的话者确认方法,以克服语音特征参数直接建立SVM话者模型面临的困难.该方法使用由GM(general model)自适应均值得到的GMM提取统计参数,定义了一种合理利用全部统计参数的特征参数,并以此参数及线性核函数建立了具有良好性能的SVM话者模型.与GMM-UBM方法及另一种基于GMM统计参数和SVM的方法在NIST05SRE数据库中的实验比较,结果表明基于GMM全统计参数和SVM的话者确认方法拥有优异的性能.  相似文献   

13.
声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。该系统选择共振峰频率和带宽及基音周期等声音特征参数,分别使用LPC求根法和自相关法提取这些特征参数。矢量量化的码本映射方法实现声音特征转换,共振峰参数法合成转换语音。实验中对5个国际音标与语音中的元音进行转换,并使用MFCC听觉倒谱法对转换结果进行评估,其中男声到女声的转换后的语音到目标语音的MFCC距离比源语音到目标语音MFCC距离平均减小48.8%。  相似文献   

14.
语音情感特征提取和识别的研究与实现   总被引:9,自引:0,他引:9  
针对语音情感识别的实时性与可用性问题,提出了利用汉明窗提取语音信号中情感特征的方法,从说话者中采集带有快乐、愤怒、惊奇、悲伤情感的语句,并从语句中提取8个情感特征参数.同时提出采用贡献分析法确定情感特征参数的权值,利用加权欧氏距离模板匹配识别语音情感.实验表明该方法识别率有提高,更适合实时识别的应用。  相似文献   

15.
基于矩阵线性插值的说话人自适应算法   总被引:1,自引:0,他引:1  
语音识别技术中说话人快速自适应技术受到普遍关注。最大似然模型插值 (maxim um likelihood model inter-polation,ML MI)算法是一种有效的快速自适应算法 ,它的主要缺点是需要存储大量的特定人模型。为克服这一缺点 ,该文提出一种改进方法——矩阵线性插值自适应算法。该算法用表示说话人特性的矩阵代替 ML MI中的特定人模型进行线性插值。而插值系数由测试者提供的语音数据按照最大似然准则确定。插值后的线性矩阵与非特定人模型相作用得到最终的说话人自适应模型。该算法大大减少了计算存储量 ,且自适应性能基本与 ML MI相当  相似文献   

16.
介绍了语音变换的相关技术,分析了利用正弦谐波模型实现语音变换的算法及流程。利用正弦谐波模型对语音进行建模和分解,提取语音的基音频率,利用高斯建模和变换实现语音韵律特征的变换;提取出正弦谐波幅度的后10阶系数,作为语音的频谱特征参数,利用矢量量化和码书映射的方法实现语音频谱特征的变换。提出了一种逐词对应的训练参数对齐方法,给出了具体实现的算法流程。对录制的2段语音利用该算法进行了仿真实验,利用ABX测试对实验结果进行了评估。测试结果显示,该算法得到的变换语音在听觉上有89.3%的概率更接近目标说话人语音。  相似文献   

17.
基于话者分类和HMM的话者自适应语音识别   总被引:2,自引:1,他引:2  
本文提出了一种基于话者分类和HMM的话者自适应语音识别方法,采用对参考话者聚类、并按话者类分别建立HMM模板的策略,对于新注册的用户,系统只需利用其极少量的语音,便可将与之最相近的一类模板指派给新用户,再采用基于谱空间映射的两级自适应方法,使系统自适应到用户的模式下工作.这种方法既提高了识别性能,又降低了自适应的难度,还有利于HMM的建立.讨论了话者分类数和自适应语音数据对话者自适应效果及识别性能的影响,提出了一种在自适应语音数据不足情况下仍具有较好自适应效果的基于FVQ的码本自适应改进算法,该算法还具有对自适应字表不敏感的特点.  相似文献   

18.
蔡铁  朱杰 《上海交通大学学报》2005,39(12):1997-2001
针对语音识别系统中快速说话人自适应问题,提出了一种支持说话人权重算法.该算法通过支持说话人的计算实现了说话人选择与自适应参数的降维,减少了自适应时的存储量,有效提高了自适应数据较少时的性能.有监督自适应的实验结果表明,在仅有一句自适应语句的情况下系统误识率相对非特定人(SI)系统下降了5.82%,明显优于其他快速自适应算法.  相似文献   

19.
根据语音信号偏离高斯分布程度大而背景噪声信号偏离高斯分布程度小这一特征,提出一种改进的以语音短时幅度谱偏度为特征参数区分语音段和噪声段的语音激活检测算法,并应用到2.4 kbit/s混合激励线性预测(mixed excitation linear prediction,MELP)声码器中.通过与自适应多速率(adaptive multi-rate,AMR)语音编码标准中的语音激活检测算法相比较,该算法复杂度较小,且对背景噪声服从高斯分布的语音信号具有更好的端点检测性能.实现了可变速率MELP声码器的平均输出码率下降为1.9 kbit/s,通过非连续传输后合成的语音具有良好的舒适性和连续性.  相似文献   

20.
主要对文本无关的说话人识别技术进行一些探讨。与语音识别不同,说话人识别技术必须提取说话人依赖特点,而语音特征量的选取是利用说话人声音的频谱通过分离傅立叶变换(DCT)获得的。在训练阶段,每一个说话者通过矢量量化产生一个码书(语音数据库)。在认识阶段期间,通过对欧几里德距离代表VQ的计算来减少失真。在一定范围的说话人的语音库中,测试结果表明有很高的识别率,可以达到96%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号