基于语音音素后验概率图关键特征提取的中文方言识别模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于语音音素后验概率图关键特征提取的中文方言识别模型

作者姓名：	冯罡陈宁

作者单位：	华东理工大学信息科学与工程学院

基金项目：	国家自然科学基金面上项目(61771196);

摘要：	不同方言对相同字的发音往往有所不同,因此不同方言所包含音素的概率分布存在较大差异,这是方言差异性的重要体现。为了充分利用这一差异性,提出了基于音素后验概率图分析的方言识别模型,该模型引入Convolutional Block Attention Module(CBAM)的提取音素后验概率图关键特征,并利用Emphasized Channel Attention-Propagation and Aggregation in TDNN(ECAPA-TDNN)模型对其进行聚合和注意力池化得到句子级特征。为进一步提升类间距离,引入了Additive Angular Margin(AAM)损失。实验结果表明,该模型取得了比传统模型更高的分类准确率,并且以上改进均对准确率提升有所贡献。
关键词：	方言识别音素特征自注意力机制 ECAPA-TDNN 特征提取