首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了将统计机器翻译技术中的规则信息引入到端到端的神经网络模型中,提出了一种将规则信息转化为近似等价的序列信息的方法.在此基础上,提出了两种融入规则信息的神经机器翻译模型,并在基于注意力机制的循环神经网络(RNN)模型上进行了验证.相对于未融入规则信息的基准模型在美国国家标准与技术研究院(NIST)评测集上的评测结果,上述两种模型的双语互译评估(BLEU)值均有所提高.实验表明,将规则等外部知识融入到神经机器翻译系统中是提升模型翻译质量的一种有效途径.  相似文献   

2.
小波神经网络的参数初始化研究   总被引:31,自引:0,他引:31  
随机产生的初始参数往往使小波神经网络的学习次数大幅度地增加,甚至不收剑,为了加快网络的学习速度,本研究提出了一种将小波网络的初始参数设置和小波类型,小波时频参数和学习样本等联系起来的小波神经网络的初始参数设置方法,学习实例结果表明,按照这一方法不但可以获得高几率的优秀初始参数,而且能大大加快小波网络的后续学习速度。  相似文献   

3.
鉴于现有基于单词的领域特征学习方法在领域识别上的精度较低,为提高领域判别和提供准确的翻译,提出一种单词级别的领域特征敏感学习机制,包括两方面:1)编码器端的上下文特征编码,为了扩展单词级别的领域特征学习范围,引入卷积神经网络,并行提取不同大小窗口的词串作为单词的上下文特征;2)强化的领域特征学习,设计基于多层感知机的领域判别器模块,增强从单词上下文特征中获取更准确领域比例的学习能力,提升单词的领域判别准确率。在多领域UM-Corpus英–汉和OPUS英–法翻译任务中的实验结果显示,所提方法平均BLEU值分别超过强基线模型0.82和1.06,单词的领域判别准确率比基线模型分别提升10.07%和18.06%。对实验结果的进一步分析表明,所提翻译模型性能的提升得益于所提出的单词领域特征敏感的学习机制。  相似文献   

4.
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能.  相似文献   

5.
由于低资源语料稀少而导致的语义捕获不充分现象已成为影响机器翻译质量的主要因素.为此,该文在预处理的基础上利用CNN和门控机制来改进Transformer模型,通过对抗训练的方式来引导模型参数的优化,同时通过加入命名实体识别来提高模型对实体的翻译性能.此外,通过多模型融合的方式将来自多个机器翻译的输出经过改进、重组、合并转变为一个单一的改进的翻译结果.通过3组对比实验表明,该方法优于基准方法.  相似文献   

6.
基于神经机器翻译模型Transformer,提出一种融合数据增强技术和多样化解码策略的方法来提高机器翻译的性能.首先,对训练语料进行预处理和泛化,提高语料质量并缓解词汇稀疏的现象;然后,基于数据增强技术使用单语句子构造伪双语数据,扩充双语平行语料以增强模型;最后,在解码阶段融合检查点平均、模型集成、重打分等策略以提高译...  相似文献   

7.
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升...  相似文献   

8.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器...  相似文献   

9.
在Transformer模型的基础上,该文从数据泛化、多样化解码策略和后处理方法3个方面进行改进.多种数据泛化策略融合方法对不同种类的稀疏词语进行识别、泛化和翻译,减少错译现象.利用检查点平均和模型集成等多样化解码策略进一步提升翻译效果.在CCMT 2019中英新闻领域翻译任务上的实验结果显示,改进后的方法在基线系统上的BLEU-SBP值提升了约1.85%.  相似文献   

10.
基于条件随机场的汽车领域术语抽取   总被引:1,自引:0,他引:1  
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.  相似文献   

11.
在以培养专业译员的教学模式中,术语搜索问题会影响译员,尤其是笔译译员的翻译效率和翻译质量。文章以英国杜伦大学的"翻译与科技"课程中的"在线术语检索课程"为例,讨论在MTI教学中将术语搜索层级化(hierarchy)应用。层级依次为:在线电子词典,使用机器翻译,使用搜索引擎和元搜索引擎,找到可信的语料库或文档,证实所找术语符合专业需求并确定术语翻译。  相似文献   

12.
该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析.  相似文献   

13.
现有最先进的神经机器翻译模型大都依赖于多层神经网络结构,针对多层网络结构易导致信息退化的问题,提出通过融合层与层之间的输出信息来改善各个层之间的残差连接关系的方法,从而使得层与层之间联系更紧密.相比于原来的残差网络连接,进一步优化了深层网络的信息流动结构,使得整个结构有效信息流动更充分.在Transformer模型和序列到序列的卷积(convolutional sequence to sequence,Conv S2S)模型上进行相关实验,大规模中-英翻译任务的实验结果表明,该方法提高了Transformer和Conv S2S的翻译性能.  相似文献   

14.
现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性.  相似文献   

15.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.然而高质量平行语料的获取却是机器翻译研究的主要难点之一.为了解决这一问题,一种可行的方案是采用无监督神经机器翻译(unsupervised neural machine translation,UNMT),该方法仅仅使用两门不相关的单语语料就可以进行训练,并获得一个不错的翻译结果.受多任务学习在有监督神经机器翻译上取得的良好效果的启发,本文主要探究UNMT在多语言、多任务学习上的应用.实验使用3门互不相关的单语语料,两两建立双向的翻译任务.实验结果表明,与单任务UNMT相比,该方法在部分语言对上最高取得了2~3个百分点的双语互译评估(BLEU)值提升.  相似文献   

16.
由于神经机器翻译模型具有大规模参数且其性能极大地依赖大规模高质量平行语料,当训练数据规模小于模型复杂度时,模型易出现过拟合问题而泛化能力不足.针对此问题,研究了词级别的正则化技术,通过对模型输入句子中的单词进行随机干扰,以此削弱数据的特异性,从而抑制模型对于数据的过度学习,防止过拟合,提高模型的泛化能力.通过Trans...  相似文献   

17.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

18.
针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMT-CV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越翻译模型的编码器与解码器参数进行初始化,并使用小规模汉越语料进行微调优化,得到TLN...  相似文献   

19.
篇章翻译是近来兴起的研究热点,如何在翻译文档时充分利用篇章信息一直是该研究的关键点和难点.在篇章级机器翻译中,如何选取当前句的篇章上下文是非常关键的.虽然相关研究使用的篇章上下文不尽相同,但是却少有在选取之前对上下文信息进行识别筛选.本文提出了一种融合篇章上下文有效识别的篇章级翻译模型,引入判别篇章上下文是否有效的分类...  相似文献   

20.
当前基于自注意力机制的神经机器翻译模型取得了长足的进展,但是采用自回归的神经机器翻译在解码过程中无法并行计算,耗费时间过长.为此,提出了一个采用非自回归的神经机器翻译模型,可以实现并行解码,并且只使用一个Transformer的编码器模块进行训练,简化了传统的编码器-解码器结构.同时在训练过程中引入了掩码机制,减小了与...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号