基于改进混合CTC/attention架构的端到端普通话语音识别 |
| |
引用本文: | 杨鸿武,周刚.基于改进混合CTC/attention架构的端到端普通话语音识别[J].西北师范大学学报,2019(3). |
| |
作者姓名: | 杨鸿武 周刚 |
| |
作者单位: | 西北师范大学物理与电子工程学院 |
| |
摘 要: | 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.
|
本文献已被 CNKI 等数据库收录! |
|