一种基于Tacotron2的端到端中文语音合成方案 |
| |
引用本文: | 王国梁,陈梦楠,陈蕾.一种基于Tacotron2的端到端中文语音合成方案[J].华东师范大学学报(自然科学版),2019(4). |
| |
作者姓名: | 王国梁 陈梦楠 陈蕾 |
| |
作者单位: | 国家电网安徽省电力有限公司信息通信分公司,合肥,230061;华东师范大学计算机科学技术系,上海,200062 |
| |
摘 要: | 颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉摘损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令,Tacotron 2较好地适应中文语音合成的要求.
|
关 键 词: | 语音合成 多头注意力 Tacotron 2 |
An end-to-end Chinese speech synthesis scheme based on Tacotron 2 |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 万方数据 等数据库收录! |
|