期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄继豪余正涛于志强文永华《厦门大学学报(自然科学版)》2021,(1):104-108

针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMT-CV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越翻译模型的编码器与解码器参数进行初始化,并使用小规模汉越语料进行微调优化,得到TLN... 相似文献

2.

相似度增强的译文质量评估方法

陈世男贡正仙李军辉周国栋《厦门大学学报(自然科学版)》2022,(4):646-653

机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务，在机器翻译领域中起到了重要的作用.相较于机器翻译，质量评估的数据资源非常稀缺，将跨语言预训练模型应用到该任务中，不但能受益于从大规模语料中学习到的跨语言知识，解决数据量不足的问题，而且极大地节约了计算资源.但与建立跨语言预训练模型采用的正常数据不同，译文质量评估面对的是正常的源端文本和错误程度不同的目标端文本，即它需要应对更大的两端语义差异.因此，本文为基于跨语言预训练模型的译文质量评估系统引入了特殊的语义关联处理层，通过相似度增强的拼接机制来增强原文与译文的语义关联性，从而提高质量评估的准确性.该方法在WMT19质量评估任务数据集上的实验结果验证了上述方法的有效性. 相似文献

3.

抑制维汉神经机器翻译代词性别偏见的方法

史学文黄河燕鉴萍唐翼琨《厦门大学学报(自然科学版)》2021,(4):693-700

利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别... 相似文献

4.

融合语态特征的日英层次短语翻译模型

王楠徐金安明芳陈钰枫张玉洁《北京大学学报(自然科学版)》2017,53(2)

针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型,将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。相似文献

5.

开放域对话系统的抗噪回复生成模型

朱钦佩缪庆亮《北京大学学报(自然科学版)》2021,57(1):38-44

为缓解输入语句中噪声对回复生成模型的干扰,提出一个基于编码-解码框架的抗噪模型.首先,在训练集输入序列中随机加入模拟噪声字符;然后,在编码端输出层训练噪声字符识别,提升模型对噪声特征的提取能力;最后,在编码端输出层融合预训练语言模型,扩大模型对噪声的覆盖面.为验证该模型的抗噪效果,构建首个带真实噪声的单轮开放域闲聊系统... 相似文献

6.

基于多语言联合训练的汉-英-缅神经机器翻译方法

《清华大学学报(自然科学版)》2021,(9)

多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。相似文献

7.

一种简单的神经机器翻译的动态数据扩充方法

《厦门大学学报(自然科学版)》2021,(4)

反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点. 相似文献

8.

融入依存关联指导的神经机器翻译方法

汪琪王坤段湘煜张民《厦门大学学报(自然科学版)》2019,(2)

现有的神经机器翻译模型的注意力机制仅考虑目标端对应源端的关联信息,未考虑源端单词之间的关联信息.通过在源端进行关联性建模,融入依存关联指导,以此加强源端单词之间的关联性,提高机器翻译的性能.首先构建源端隐藏层之间的关联性,其次构建依存关联损失函数,从而将依存关联指导融入基准的神经机器翻译系统.利用循环神经网络基准模型和Transformer基准模型分别在大规模的中-英测试数据集上进行实验,结果表明,相较于基准神经机器翻译系统,融入依存关联指导可以有效提升机器翻译质量. 相似文献

9.

多策略切分粒度的藏汉双向神经机器翻译研究

《厦门大学学报(自然科学版)》2020,(2)

现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性. 相似文献

10.

基于循环生成对抗网络的机器翻译方法研究

夏珺周湘贞隋栋《南京师大学报(自然科学版)》2022,(1):104-109

近几年来,智能语言处理在语言学习方面已经得到了广泛的应用,但是由于在处理语言中往往会存在网络模型优化困难、强制对其的标记数据会出现精度偏差,与以往大多数使用判别模型结合HMM混合模型进行声学模型训练的系统相比,本文提出了一种基于循环生成对抗网络的机器翻译方法,该方法主要结合生成对抗网络来训练机器翻译模型.首先,将一段语... 相似文献

11.

融合小句对齐知识的汉英神经机器翻译

苗国义刘明童陈钰枫徐金安张玉洁冯文贺《北京大学学报(自然科学版)》2022,58(1):61-68

针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器... 相似文献

12.

基于类典型理论的词语翻译研究

姚文勇《长春师范学院学报》2008,(7)

翻译中的范畴问题是指在词语翻译中由于原语言和目的语言的范畴不同而引起的不对等问题。在类典型及基本层次范畴理论的视角下,英汉翻译中的词语范畴在类典型、范畴域、范畴层次性和文化意义上存在不同,并且存在范畴的缺失现象。词语翻译的本质,模式被赋予新的意义。这有助于对等方面译文质量的提高。相似文献

13.

基于语义分布相似度的翻译模型领域自适应研究

姚亮洪宇刘昊刘乐姚建民《山东大学学报(理学版)》2016,51(7):43-50

统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别获得0.67和0.56个BLEU值的性能提升。相似文献

14.

复述平行语料构建及其应用方法研究

王雅松刘明童张玉洁徐金安陈钰枫《北京大学学报(自然科学版)》2021,57(1):68-74

以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹... 相似文献

15.

多种数据泛化策略融合的神经机器翻译系统

刘俊鹏宋鼎新张一鸣黄德根《江西师范大学学报(自然科学版)》2020,44(1):39-45

在Transformer模型的基础上,该文从数据泛化、多样化解码策略和后处理方法3个方面进行改进.多种数据泛化策略融合方法对不同种类的稀疏词语进行识别、泛化和翻译,减少错译现象.利用检查点平均和模型集成等多样化解码策略进一步提升翻译效果.在CCMT 2019中英新闻领域翻译任务上的实验结果显示,改进后的方法在基线系统上的BLEU-SBP值提升了约1.85%. 相似文献

16.

基于编码器共享和门控网络的生成式文本摘要方法 总被引：2，自引：0，他引：2

田珂珂周瑞莹董浩业印鉴《北京大学学报(自然科学版)》2020,56(1):61-67

结合基于自注意力机制的Transformer模型, 提出一种基于编码器共享和门控网络的文本摘要方法。该方法将编码器作为解码器的一部分, 使解码器的部分模块共享编码器的参数, 同时使用门控网络筛选输入序列中的关键信息。相对已有方法, 所提方法提升了文本摘要任务的训练和推理速度, 同时提升了生成摘要的准确性和流畅性。在英文数据集Gigaword和DUC2004上的实验表明, 所提方法在时间效率和生成摘要质量上, 明显优于已有模型。相似文献

17.

基于双语合成语义的翻译相似度模型

王超超熊德意张民《北京大学学报(自然科学版)》2015,51(2):335-341

提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。相似文献

18.

浅谈直译法与意译法在翻译工作中的应用

高强李曹《科技信息》2008,(14):263-264

本文针对在翻译工作中经常遇到的直译法与意译法进行探索。直译法将原文风貌原汁原味地呈现给目标语读者,而意译法将原文生动活泼地于目标语中再现,两者相辅相成,各有优势。要妥当地处理两者间的关系,翻译工作者需要在实践工作中不断积累经验,做到理论与实践相结合。相似文献

19.

联合自编码任务的多机制融合复述生成模型

刘明童张玉洁张姝孟遥徐金安陈钰枫《北京大学学报(自然科学版)》2020,56(1):53-60

基于神经网络编码–解码框架的复述生成模型存在两方面的问题: 1) 生成的复述句中存在实体词不准确、未登录词和词汇重复生成; 2) 复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题, 本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型, 利用复制机制从原句复制词语来解决实体词和未登录词生成问题; 利用覆盖机制建模学习注意力机制历史决策信息来规避词汇重复生成。针对第二个问题, 基于多任务学习框架, 提出在复述生成任务中联合自编码任务, 两个任务共享一个编码器, 同时利用平行复述语料和原句子数据, 共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明, 提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题, 并提高了复述句的生成质量。相似文献