首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

2.
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu.  相似文献   

3.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

4.
基于概率模型的汉语和越南语的人名音译方法   总被引:1,自引:1,他引:0       下载免费PDF全文
利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。  相似文献   

5.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer,GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

6.
为了提高机器翻译模型的泛化能力,基于神经机器翻译系统,将系统融合技术应用于模型训练过程.在神经机器翻译系统的基本结构——编码器-解码器结构的基础上,提出5种融合方法(平均融合、权重融合、拼接融合、门机制融合和注意力机制融合)分别应用于多个编码器-一个解码器的融合、多个编码器-多个解码器的融合和一个编码器-多个解码器的融合.在中英翻译任务上进行实验,相对于基准系统,系统融合方法改进的机器翻译模型的机器双语互译评估(BLEU)值最终提升了0.59~3.01个百分点.实验结果表明,系统融合能有效地提升译文质量.  相似文献   

7.
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别...  相似文献   

8.
蓝婷 《科技资讯》2012,(4):207-207
母语习惯如果有利于养成外语习惯,那么母语对外语学习者的促进作用被称为正迁移,反之称为负迁移。对于越南语学习者来说,已经掌握的汉语和英语知识对学习越南语的迁移也是如此。我们在教授越南语过程中利用母语和英语的正迁移,有助于讲解,使学生更容易理解和接受,同时加强英语记忆,巩固和提高师生的英语水平。  相似文献   

9.
从社会语言学的"变异"概念出发对汉越词的概念及其变异问题进行讨论。认为"汉越词"指用汉越音来读的汉语词汇,它融入了越南语并成为越语词汇系统中要素之一。汉越读法的形成与越南语历史语音方言有关。无论从理论上还是实践上,并不是所有的汉字(汉语词)一加上汉越语音外壳就能成为汉越词素的,因此还要区分"汉越词"和"汉越读法的汉语词"两个概念。  相似文献   

10.
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹...  相似文献   

11.
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。  相似文献   

12.
深度学习方法凭借对语义的深度理解能力在机器翻译领域取得长足的进步.然而,对于低资源语言,大规模双语语料的缺乏易导致模型过拟合.针对低资源神经机器翻译数据稀疏的问题,提出了一种迭代知识精炼的对偶学习训练方法,利用回译扩充双语平行语料,通过迭代调整伪语料和真实语料比例,在学习语言表征的同时降低噪声风险,最后结合译文质量及流利度奖励,在源语-目标语和目标语-源语两个方向上优化模型参数,从而达到提升译文质量的目的.在第15届全国机器翻译大会(CCMT 2019)蒙古语-汉语翻译任务上进行了多项实验,结果表明本文方法相比基线提高显著,充分证明该方法的有效性.  相似文献   

13.
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。  相似文献   

14.
从秦汉时期起,大量古汉语的词汇传入越南,被越南语吸收和越化,被称为"汉越词"。汉越词是越南语词汇库的重要组成部分,约占越南语词汇总量的60%~70%。汉语词传入越南之后,有些仍然保持其原义,但有些经过演变导致词义扩展、缩减或改变。因此在汉越互译时必须深入了解这些汉越词的词义和用法等特点。通过简介汉越词的词义和演变来分析汉越词对汉越互译过程的影响,并进而提出汉越互译教学中具有针对性的教学策略。  相似文献   

15.
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.  相似文献   

16.
本文采用语料分析来探讨汉语主题突出特征对中国英语学习者英语写作的影响。本研究表明中国学生英语写作中普遍存在主题突出现象,汉语主题突出特征是可迁移的。母语迁移是造成英汉中介语的主要原因。  相似文献   

17.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

18.
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升...  相似文献   

19.
反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.  相似文献   

20.
范宏贵、刘志强著的《越南语言文化探究》已于2008年7月由民族出版社出版。该书从文化语言学的角度论述了中越文化的交流、汉越语词产生的历史背景及其含义的多种演变、越南人使用汉字-喃字-拉丁化拼音文字的发展过程,以及汉越语和汉字在越南语中的地位和作用,是学习越南语的极  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号