基于多种数据筛选的维汉神经机器翻译期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多种数据筛选的维汉神经机器翻译

作者姓名：	宜年艾山·吾买尔买合木提·买买提吐尔根·依布拉音

作者单位：	新疆大学信息科学与工程学院新疆多语种信息技术重点实验室

基金项目：	国家自然科学基金(62166044,616662077);;国家语委重点科研项目(ZDI135-54);;国家重点研发计划(2017YFB1002103);

摘要：	为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名.
关键词：	维汉翻译自注意力机制低资源翻译