首页 | 本学科首页   官方微博 | 高级检索  
     

基于多种数据筛选的维汉神经机器翻译
作者姓名:宜年  艾山·吾买尔  买合木提·买买提  吐尔根·依布拉音
作者单位:新疆大学信息科学与工程学院新疆多语种信息技术重点实验室
基金项目:国家自然科学基金(62166044,616662077);;国家语委重点科研项目(ZDI135-54);;国家重点研发计划(2017YFB1002103);
摘    要:为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名.

关 键 词:维汉翻译  自注意力机制  低资源翻译
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号