基于子词的句子级别神经机器翻译的译文质量估计方法 |
| |
作者姓名: | 李培芸 翟煜锦 项青宇 李茂西 裘白莲 罗文兵 王明文 |
| |
作者单位: | 江西师范大学计算机与信息工程学院 |
| |
基金项目: | 国家自然科学基金(61662031,61462044,61876074); |
| |
摘 要: | 目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出了基于字节对编码(BPE)子词切分和基于一元文法语言模型子词切分的神经译文质量估计方法,并将两者的译文质量估计的得分与基于词语切分的神经译文质量估计得分融合后进行译文质量估计.在WMT18句子级别译文质量估计子任务数据集上的实验结果表明:融合BPE子词切分、一元文法语言模型子词切分和词语切分的神经译文质量估计方法的性能在多个评测子任务上超过了WMT18给出的最好参与系统,深入的实验分析进一步揭示了融合不同粒度的句子切分方法提高了译文质量估计的健壮性.
|
关 键 词: | 质量估计 神经机器翻译 子词 编码器-解码器模型 循环神经网络 联合神经网络 |
本文献已被 CNKI 等数据库收录! |
|