基于改进混合CTC/attention架构的端到端普通话语音识别期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于改进混合CTC/attention架构的端到端普通话语音识别

引用本文：	杨鸿武,周刚.基于改进混合CTC/attention架构的端到端普通话语音识别[J].西北师范大学学报,2019(3).

作者姓名：	杨鸿武周刚

作者单位：	西北师范大学物理与电子工程学院

摘要：	端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.
本文献已被 CNKI 等数据库收录！