首页 | 本学科首页   官方微博 | 高级检索  
     

基于瓶颈特征的藏语拉萨话连续语音识别研究
引用本文:周楠,赵悦,李要嫱,徐晓娜,才旺拉姆,吴立成. 基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版), 2018, 54(2): 249-254. DOI: 10.13209/j.0479-8023.2017.154
作者姓名:周楠  赵悦  李要嫱  徐晓娜  才旺拉姆  吴立成
作者单位:中央民族大学信息工程学院,北京,100081;中央民族大学信息工程学院,北京,100081;中央民族大学信息工程学院,北京,100081;中央民族大学信息工程学院,北京,100081;中央民族大学信息工程学院,北京,100081;中央民族大学信息工程学院,北京,100081
基金项目:教育部人文社会科学规划基金,中央民族大学双一流学科建设项目资助
摘    要:基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点, 将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中, 可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明, 瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。

关 键 词:藏语拉萨话  连续语音识别  高斯混合—隐马尔科夫模型  瓶颈特征  深度神经网络
收稿时间:2017-05-31

Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect
ZHOU Nan,ZHAO Yue,LI Yaoqiang,XU Xiaona,CAIWANG Lamu,WU Licheng. Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 249-254. DOI: 10.13209/j.0479-8023.2017.154
Authors:ZHOU Nan  ZHAO Yue  LI Yaoqiang  XU Xiaona  CAIWANG Lamu  WU Licheng
Affiliation:School of Information Engineering, Minzu University of China, Beijing 100081
Abstract:The bottleneck features extracted from deep neural network not only have long term context-dependence and compact representation of speech signal, but also can replace the traditional MFCC features for GMM-HMM acoustic modeling. The authors apply bottleneck features and their concatenated features with MFCC into Lhasa-Tibetan continuous speech recognition. The experiments in Lhasa-Tibetan continuous speech recog-nition show that the concatenated features of bottleneck features and MFCC achieve better performance than the posterior features of deep neural network and mono-bottleneck features.
Keywords:Lhasa-Tibetan  continuous speech recognition  GMM-HMM  bottleneck features  deep neural network (DNN)  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号