首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了将统计机器翻译技术中的规则信息引入到端到端的神经网络模型中,提出了一种将规则信息转化为近似等价的序列信息的方法.在此基础上,提出了两种融入规则信息的神经机器翻译模型,并在基于注意力机制的循环神经网络(RNN)模型上进行了验证.相对于未融入规则信息的基准模型在美国国家标准与技术研究院(NIST)评测集上的评测结果,上述两种模型的双语互译评估(BLEU)值均有所提高.实验表明,将规则等外部知识融入到神经机器翻译系统中是提升模型翻译质量的一种有效途径.  相似文献   

2.
现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性.  相似文献   

3.
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能.  相似文献   

4.
神经机器翻译(NMT)因其在多个语言对上的翻译效果都远超传统的统计机器翻译(SMT)而逐渐成为机器翻译方向的主流.然而,这种NMT系统在将向量化的词语作为输入时只考虑了词语整体的语义信息,忽略了构成词语的汉字本身所包含的信息.为此,针对汉字给出了一种融入汉字笔画序列的NMT系统.该系统在将词语的词向量作为输入的同时又将向量化的汉字笔画序列作为额外输入,既考虑了中文词语整体的语义信息,又考虑了构成词语的汉字本身的内部语义信息和外部形态信息.实验结果表明,提出的融入了汉字笔画序列的NMT系统更加有效,其翻译结果更加准确流畅,与传统的NMT系统相比机器双语互译评估(BLEU)值能够提高1.21个百分点.  相似文献   

5.
反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.  相似文献   

6.
为了提高机器翻译模型的泛化能力,基于神经机器翻译系统,将系统融合技术应用于模型训练过程.在神经机器翻译系统的基本结构——编码器-解码器结构的基础上,提出5种融合方法(平均融合、权重融合、拼接融合、门机制融合和注意力机制融合)分别应用于多个编码器-一个解码器的融合、多个编码器-多个解码器的融合和一个编码器-多个解码器的融合.在中英翻译任务上进行实验,相对于基准系统,系统融合方法改进的机器翻译模型的机器双语互译评估(BLEU)值最终提升了0.59~3.01个百分点.实验结果表明,系统融合能有效地提升译文质量.  相似文献   

7.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

8.
机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务,在机器翻译领域中起到了重要的作用.相较于机器翻译,质量评估的数据资源非常稀缺,将跨语言预训练模型应用到该任务中,不但能受益于从大规模语料中学习到的跨语言知识,解决数据量不足的问题,而且极大地节约了计算资源.但与建立跨语言预训练模型采用的正常数据不同,译文质量评估面对的是正常的源端文本和错误程度不同的目标端文本,即它需要应对更大的两端语义差异.因此,本文为基于跨语言预训练模型的译文质量评估系统引入了特殊的语义关联处理层,通过相似度增强的拼接机制来增强原文与译文的语义关联性,从而提高质量评估的准确性.该方法在WMT19质量评估任务数据集上的实验结果验证了上述方法的有效性.  相似文献   

9.
序列到序列模型已经被广泛用于抽象文本摘要中,主要将源端语句的词序列通过神经网络生成摘要的词序列.在生成过程中,源端语句所携带的信息被编码,继而由解码器生成摘要.源端句子中包含有两种类型的信息,一类是与摘要有关联的信息,另一类是与摘要无关的冗余信息.为了区分这两类信息,提出了一种新的模型架构,在序列到序列模型的目标端加入冗余序列信息,通过解码器分别生成摘要文本以及冗余文本.将该模型应用于Gigaword英文测试集和LCSTS中文测试集,测试结果表明:相对于基准系统Transformer模型,加入冗余序列的Transformer模型在评估指标ROUGE-1(recall-oriented understudy for gisting evaluation-1)下的得分提高了0.7个百分点,证明该模型能够生成更高质量的抽象文本摘要.  相似文献   

10.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

11.
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出结果的性别偏见问题,在代词性别预测的精度上也有显著提升.  相似文献   

12.
现有的基于图神经网络的会话推荐算法通过将会话序列构筑为图形结构捕捉项目转换关系,能够有效提高推荐性能.然而多数图神经网络及其改进模型在建模会话时仅考虑会话序列中项目的单次转换关系,忽略了会话中包含的大量有效信息,同时缺乏对项目间隐藏关联性的分析.因此提出融合多源图信息的图神经网络会话推荐算法.将用户重复行为信息,项目内容关联信息纳入到会话图建模过程当中,有效提取项目更深层次的复杂转换关系,并通过线性转换进行聚合.此外采用外部注意力机制辅助获取会话序列项目隐藏关联信息,使得生成的会话向量在推荐过程中更加精确.在真实数据集Yoochoose和Diginetica上进行实验,实验结果表明该模型优于基准模型,特别地,相较于SR-GNN模型在MRR@20指标上提高了12.50%,能更好地预测用户的下一次点击项目.  相似文献   

13.
以关联多工序制造系统为对象,综合考虑机器的暂态过程以及加工工序的关联性,构建了关联多工序制造系统暂态过程的马尔科夫质量分析模型,并对相关质量特性瓶颈参数进行了研究分析.通过F系列航天阀门多工序制造系统案例验证了提出的模型和分析方法的有效性.  相似文献   

14.
神经机器翻译综述   总被引:1,自引:0,他引:1  
机器翻译研究在非人工干预的情况下,利用计算机自动地实现不同语言之间的转换,是自然语言处理和人工智能的重要研究领域,神经机器翻译(neural machine translation,NMT)利用神经网络实现源语言到目标语言的转换,是一种全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在很多语言对上超过了统计机器翻译方法.首先介绍神经机器翻译的基本思想和主要方法,然后对最新的前沿进展进行综述,最后对神经机器翻译的未来发展方向进行展望.  相似文献   

15.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

16.
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.  相似文献   

17.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

18.
篇章翻译是近来兴起的研究热点,如何在翻译文档时充分利用篇章信息一直是该研究的关键点和难点.在篇章级机器翻译中,如何选取当前句的篇章上下文是非常关键的.虽然相关研究使用的篇章上下文不尽相同,但是却少有在选取之前对上下文信息进行识别筛选.本文提出了一种融合篇章上下文有效识别的篇章级翻译模型,引入判别篇章上下文是否有效的分类任务,并根据判别结果来控制目标端对篇章上下文的利用.在中英、英德翻译任务上,与基准系统相比,本模型的翻译性能都得到了显著的提升.  相似文献   

19.
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%.  相似文献   

20.
近年来,神经机器翻译模型已经成为机器翻译领域的主流模型,如何从大量的训练数据中快速、准确地学习翻译知识是一个值得探讨的问题。不同训练样本的难易程度不同,样本的难易程度对模型的收敛性有极大影响,但是传统的神经机器翻译模型在训练过程中并没有考虑这种差异性。本文探究样本的难易程度对神经机器翻译模型训练过程的影响,基于"课程学习"的思想,为神经机器翻译模型提出了一种基于样本难度的动态学习方法:分别从神经机器翻译模型的翻译效果和训练样本的句子长度2方面量化训练样本的难易程度;设计了由易到难和由难到易2种学习策略训练模型,并比较模型的翻译效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号