首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
虽然源语言和目标语言单语数据已被证明通过正向翻译和反向翻译改进神经机器翻译非常有用,但如何更有效的同时使用还值得更深入的研究.为了在神经机器翻译中更有效地同时使用源语言和目标语言单语数据,本文提出了一种基于集束搜索的正向翻译和基于最优N随机采样的反向翻译的组合方法.具体地,将该方法应用于第十七届全国机器翻译大会(CCMT 2021)汉英和英汉新闻领域的翻译评测任务,实验结果表明,与其他常用的单语数据增强方法相比,该方法可以更有效地提升神经机器翻译模型的翻译质量.此外,在使用该方法之前,先进行领域知识迁移还可以进一步取得翻译质量的提升.  相似文献   

2.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

3.
基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤方法得到通用领域俄汉语料,然后在不同参数配置的Transformer模型上进行预训练,探索多种领域适应性微调方法,得到最优模型,最后在译码阶段采用模型平均和后处理生成翻译结果.实验结果表明,该方法可以有效提升低资源场景下的俄汉机器翻译效果.  相似文献   

4.
该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析.  相似文献   

5.
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出结果的性别偏见问题,在代词性别预测的精度上也有显著提升.  相似文献   

6.
如何改善神经机器翻译模型的翻译性能一直是学术界研究的热门课题,特别是在低资源语种的翻译任务上,如何提高原有平行语料训练出来的翻译模型的翻译质量是一个迫切需要解决的问题.为此,对传统的统计机器翻译任务上使用的协同训练方法进行优化,进一步提出新的协同训练方法,并应用于神经机器翻译任务中,改善原有神经机器翻译模型的翻译质量.实验表明神经机器翻译中使用协同训练的方法能显著提高翻译质量,在语料数量稀少(低资源语料)的情况下提升效果更为显著.  相似文献   

7.
为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名.  相似文献   

8.
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%.  相似文献   

9.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

10.
针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMTCV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越翻译模型的编码器与解码器参数进行初始化,并使用小规模汉越语料进行微调优化,得到TLNMT-CV模型.实验表明,TLNMT-CV模型能够快速地实现新模型的初始化,提高模型的参数质量,从而提高翻译性能.相比Transformer,TLNMT-CV模型的双语互译评估(BLEU)值提升了1.16个百分点.  相似文献   

11.
深度学习方法凭借对语义的深度理解能力在机器翻译领域取得长足的进步.然而,对于低资源语言,大规模双语语料的缺乏易导致模型过拟合.针对低资源神经机器翻译数据稀疏的问题,提出了一种迭代知识精炼的对偶学习训练方法,利用回译扩充双语平行语料,通过迭代调整伪语料和真实语料比例,在学习语言表征的同时降低噪声风险,最后结合译文质量及流利度奖励,在源语-目标语和目标语-源语两个方向上优化模型参数,从而达到提升译文质量的目的.在第15届全国机器翻译大会(CCMT 2019)蒙古语-汉语翻译任务上进行了多项实验,结果表明本文方法相比基线提高显著,充分证明该方法的有效性.  相似文献   

12.
介绍了机器翻译方法和统计翻译模型,利用国际开源软件构建了一个基于短语的蒙汉机器翻译系统.初步试验结果表明,基于短语翻译方法的蒙汉机器翻译系统具有较好的翻译效果.  相似文献   

13.
面向维汉神经机器翻译的双向重排序模型分析   总被引:1,自引:0,他引:1  
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。  相似文献   

14.
从高效利用现有资源的角度出发,针对维汉平行语料匮乏导致维汉神经机器翻译效果欠佳的问题,提出一个基于回译和集成学习的方法.首先,利用回译和大规模汉语单语语料构造出维汉伪平行语料,并利用伪平行语料进行训练得到中间模型;其次,使用自助采样法对原始平行语料进行N次重采样,得到N个近似同一分布但具有差异性的子数据集;基于N个子数据集分别对中间模型进行微调,得到N个具有差异性的子模型;最后,将这些子模型集成.在CWMT2015和CWMT2017的测试集上的实验证明,该方法比基线系统的BLEU值分别提升了2.37和1.63.  相似文献   

15.
基于神经机器翻译模型Transformer,提出一种融合数据增强技术和多样化解码策略的方法来提高机器翻译的性能.首先,对训练语料进行预处理和泛化,提高语料质量并缓解词汇稀疏的现象;然后,基于数据增强技术使用单语句子构造伪双语数据,扩充双语平行语料以增强模型;最后,在解码阶段融合检查点平均、模型集成、重打分等策略以提高译文质量.第16届全国机器翻译大会(CCMT 2020)中英新闻领域翻译任务的实验结果显示,改进后的方法较基线系统的双语互译评估(BLEU)值提升了4.89个百分点.  相似文献   

16.
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.  相似文献   

17.
针对日汉机器翻译问题,提出一种新的独立于具体机器翻译算法的两层翻译架构。第一层优先利用信息检索和双语语料实现翻译记忆;第二层充分利用日语的自然形态特性,在句法匹配和词汇记忆基础上支撑高级翻译。该架构的效力依赖于大规模日汉语料资源和高效的句法匹配算法。网络语言大数据爆发在一定程度上缓解了日汉语料资源的匮乏,而平假名符号子系统表示的句法框架显式标记可以支持高效句法匹配算法的实现。实验结果表明把日语自然形态特性融入日汉机器翻译,能够创新翻译架构、扩充语料规模、降低训练开销。  相似文献   

18.
反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.  相似文献   

19.
为了提高机器翻译模型的泛化能力,基于神经机器翻译系统,将系统融合技术应用于模型训练过程.在神经机器翻译系统的基本结构——编码器-解码器结构的基础上,提出5种融合方法(平均融合、权重融合、拼接融合、门机制融合和注意力机制融合)分别应用于多个编码器-一个解码器的融合、多个编码器-多个解码器的融合和一个编码器-多个解码器的融合.在中英翻译任务上进行实验,相对于基准系统,系统融合方法改进的机器翻译模型的机器双语互译评估(BLEU)值最终提升了0.59~3.01个百分点.实验结果表明,系统融合能有效地提升译文质量.  相似文献   

20.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号