首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现有的神经机器翻译模型的注意力机制仅考虑目标端对应源端的关联信息,未考虑源端单词之间的关联信息.通过在源端进行关联性建模,融入依存关联指导,以此加强源端单词之间的关联性,提高机器翻译的性能.首先构建源端隐藏层之间的关联性,其次构建依存关联损失函数,从而将依存关联指导融入基准的神经机器翻译系统.利用循环神经网络基准模型和Transformer基准模型分别在大规模的中-英测试数据集上进行实验,结果表明,相较于基准神经机器翻译系统,融入依存关联指导可以有效提升机器翻译质量.  相似文献   

2.
针对传统神经网络语言模型方法只关注词语之间关系或者词语内部信息而导致维吾尔语语言模型困惑度(PPL)过高的问题,提出了融入词素信息的维吾尔语神经网络语言模型.该方法在传统神经网络语言模型的基础上添加了词内结构建模层及合并层,利用双向长短时序记忆网络来捕捉词内结构信息,并与word2vec训练好的词向量相结合作为神经网络语言模型的输入;同时还采用重构N元语法(N-gram)语言模型的方式将神经网络模型应用到汉维统计机器翻译中.实验表明该模型的PPL降低了19.93,在汉维统计机器翻译任务中机器双语互译评估(BLEU)值提升了0.28个百分点.  相似文献   

3.
现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性.  相似文献   

4.
神经机器翻译综述   总被引:1,自引:0,他引:1  
机器翻译研究在非人工干预的情况下,利用计算机自动地实现不同语言之间的转换,是自然语言处理和人工智能的重要研究领域,神经机器翻译(neural machine translation,NMT)利用神经网络实现源语言到目标语言的转换,是一种全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在很多语言对上超过了统计机器翻译方法.首先介绍神经机器翻译的基本思想和主要方法,然后对最新的前沿进展进行综述,最后对神经机器翻译的未来发展方向进行展望.  相似文献   

5.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

6.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

7.
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能.  相似文献   

8.
神经机器翻译(NMT)因其在多个语言对上的翻译效果都远超传统的统计机器翻译(SMT)而逐渐成为机器翻译方向的主流.然而,这种NMT系统在将向量化的词语作为输入时只考虑了词语整体的语义信息,忽略了构成词语的汉字本身所包含的信息.为此,针对汉字给出了一种融入汉字笔画序列的NMT系统.该系统在将词语的词向量作为输入的同时又将向量化的汉字笔画序列作为额外输入,既考虑了中文词语整体的语义信息,又考虑了构成词语的汉字本身的内部语义信息和外部形态信息.实验结果表明,提出的融入了汉字笔画序列的NMT系统更加有效,其翻译结果更加准确流畅,与传统的NMT系统相比机器双语互译评估(BLEU)值能够提高1.21个百分点.  相似文献   

9.
虽然源语言和目标语言单语数据已被证明通过正向翻译和反向翻译改进神经机器翻译非常有用,但如何更有效的同时使用还值得更深入的研究.为了在神经机器翻译中更有效地同时使用源语言和目标语言单语数据,本文提出了一种基于集束搜索的正向翻译和基于最优N随机采样的反向翻译的组合方法.具体地,将该方法应用于第十七届全国机器翻译大会(CCMT 2021)汉英和英汉新闻领域的翻译评测任务,实验结果表明,与其他常用的单语数据增强方法相比,该方法可以更有效地提升神经机器翻译模型的翻译质量.此外,在使用该方法之前,先进行领域知识迁移还可以进一步取得翻译质量的提升.  相似文献   

10.
基于深度学习的神经机器翻译已在多个语言对上显著超过传统的统计机器翻译,成为当前的主流机器翻译技术。该文从词粒度层面出发,对国际上具有影响力的6种神经机器翻译方法在维吾尔语-汉语翻译任务上进行了深入分析和比较,这6种方法分别是基于注意力机制(GroundHog),词表扩大(LV-groundhog),源语言和目标语言采用子词(subword-nmt)、字符与词混合(nmt.hybrid)、子词与字符(dl4mt-cdec)以及完全字符(dl4mt-c2c)方法。实验结果表明:源语言采用子词、目标语言采用字符的方法(dl4mtcdec)在维吾尔语-汉语神经机器翻译任务上性能最佳。该文不仅是首次将神经机器翻译方法应用到维吾尔语-汉语机器翻译任务上,也是首次将不同的神经机器翻译方法在同一语料库上进行了对比分析。该研究对维吾尔语-汉语机器翻译任务和神经机器翻译的进一步研究工作都具有重要的参考意义。  相似文献   

11.
为了提高机器翻译模型的泛化能力,基于神经机器翻译系统,将系统融合技术应用于模型训练过程.在神经机器翻译系统的基本结构——编码器-解码器结构的基础上,提出5种融合方法(平均融合、权重融合、拼接融合、门机制融合和注意力机制融合)分别应用于多个编码器-一个解码器的融合、多个编码器-多个解码器的融合和一个编码器-多个解码器的融合.在中英翻译任务上进行实验,相对于基准系统,系统融合方法改进的机器翻译模型的机器双语互译评估(BLEU)值最终提升了0.59~3.01个百分点.实验结果表明,系统融合能有效地提升译文质量.  相似文献   

12.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

13.
该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析.  相似文献   

14.
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%.  相似文献   

15.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

16.
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.  相似文献   

17.
如何改善神经机器翻译模型的翻译性能一直是学术界研究的热门课题,特别是在低资源语种的翻译任务上,如何提高原有平行语料训练出来的翻译模型的翻译质量是一个迫切需要解决的问题.为此,对传统的统计机器翻译任务上使用的协同训练方法进行优化,进一步提出新的协同训练方法,并应用于神经机器翻译任务中,改善原有神经机器翻译模型的翻译质量.实验表明神经机器翻译中使用协同训练的方法能显著提高翻译质量,在语料数量稀少(低资源语料)的情况下提升效果更为显著.  相似文献   

18.
单纯的粗糙集和神经网络在故障诊断方面存在着各自的优缺点,将粗糙集与模糊神经网络相结合的同时,利用粗糙集提取的规则融入神经网络结构中,从而构造了一个模糊粗糙强耦合神经网络结构,并将其运用于TEP(Tennessee-Eastman process)故障诊断中,取得了较好的故障诊断结果.  相似文献   

19.
人们对大语境神经网络机器翻译(如文档翻译和多模式翻译)越来越感兴趣.目前,虽然有多个研究学者提出了新的网络架构或评估方法,但在大语境翻译模型内,潜在有用的语境信息有时仍会被忽略.文章提出了一种新颖的学习算法,即通过使用多级成对排序损失函数,将其他的语境信息纳入神经网络翻译模型考虑范畴.在文章中,通过使用文档翻译中基于转换器且大语境翻译系统,来评估所述出的学习算法.通过实际语境和随机语境,我们比较该算法的性能,并得出经过文章所述的算法训练的模型对附加语境信息更为敏感.  相似文献   

20.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号