首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于音素相关后验概率变换的发音质量评价
引用本文:严可,魏思,戴礼荣,刘庆峰.基于音素相关后验概率变换的发音质量评价[J].清华大学学报(自然科学版),2011(9):1205-1208,1214.
作者姓名:严可  魏思  戴礼荣  刘庆峰
作者单位:中国科学技术大学电子信息工程;安徽科大讯飞股份有限公司;
基金项目:严可(1984—),男(汉),四川,博士研究生
摘    要:帧规整对数后验概率是目前公认最有效的发音质量的度量。但该文证明了该度量还反映了当前发音对应的声学模型与概率空间中声学模型的混淆程度,使其在评分任务上存在着严重的缺陷。因此,该文提出了可训练的音素相关的后验概率变换;并研究了线性和非线性sigmoid变换,同时给出线性变换的显式全局最优解和非线性变换的梯度下降解法。在全国采集的普通话水平测试现场考试的篇章朗读题型上进行实验。实验结果表明:当概率空间包含所有音素时,该方法能使人机相关度从0.582提升至0.768;当采用优化的概率空间时,该方法能使人机相关度从0.696提升至0.773。

关 键 词:计算机辅助语言教学  发音质量评价  后验概率变换

Pronunciation evaluation based on a phoneme-dependent posterior probability transformation
YAN Ke,WEI Si,DAI Lirong,LIU Qingfeng.Pronunciation evaluation based on a phoneme-dependent posterior probability transformation[J].Journal of Tsinghua University(Science and Technology),2011(9):1205-1208,1214.
Authors:YAN Ke  WEI Si  DAI Lirong  LIU Qingfeng
Institution:YAN Ke1,WEI Si2,DAI Lirong1,LIU Qingfeng1,2(1.iFlytek Speech Lab,University of Science and Technology of China,Hefei 230027,China,2.Anhui USTC iFLYTEK Company Ltd,China)
Abstract:The frame-normalized log posterior probability is a promising feature for pronunciation evaluation.However,this paper points out its deficiency and proves that this reflects the confusion between the acoustic model of current pronunciation and acoustic models in the probability space.A phoneme-based log posterior probability transformation method is given to deal with this problem using both linear and non-linear transformations with a closed form solution for linear transformations and a gradient descent m...
Keywords:computer assisted language learning  pronunciation evaluation  posterior probability transformation  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号