期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐毓赖华余正涛高盛祥文永华《厦门大学学报(自然科学版)》2020,(2):220-224

在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能. 相似文献

2.

民汉稀缺资源神经机器翻译技术研究

赵阳周龙王迁马聪刘宇宸王亦宁向露张家俊周玉宗成庆《江西师范大学学报(自然科学版)》2019,(6):630-637

该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析. 相似文献

3.

基于样本难度的神经机器翻译动态学习方法

王素范意兴郭嘉丰张儒清程学旗《广西师范大学学报(自然科学版)》2021,39(2):13-20

近年来,神经机器翻译模型已经成为机器翻译领域的主流模型,如何从大量的训练数据中快速、准确地学习翻译知识是一个值得探讨的问题.不同训练样本的难易程度不同,样本的难易程度对模型的收敛性有极大影响,但是传统的神经机器翻译模型在训练过程中并没有考虑这种差异性.本文探究样本的难易程度对神经机器翻译模型训练过程的影响,基于“课程学... 相似文献

4.

多种数据泛化策略融合的神经机器翻译系统

刘俊鹏宋鼎新张一鸣黄德根《江西师范大学学报(自然科学版)》2020,44(1):39-45

在Transformer模型的基础上,该文从数据泛化、多样化解码策略和后处理方法3个方面进行改进.多种数据泛化策略融合方法对不同种类的稀疏词语进行识别、泛化和翻译,减少错译现象.利用检查点平均和模型集成等多样化解码策略进一步提升翻译效果.在CCMT 2019中英新闻领域翻译任务上的实验结果显示,改进后的方法在基线系统上的BLEU-SBP值提升了约1.85%. 相似文献

5.

基于掩码机制的非自回归神经机器翻译

贾浩王煦季佰军段湘煜张民《厦门大学学报(自然科学版)》2021,(4):648-654

当前基于自注意力机制的神经机器翻译模型取得了长足的进展,但是采用自回归的神经机器翻译在解码过程中无法并行计算,耗费时间过长.为此,提出了一个采用非自回归的神经机器翻译模型,可以实现并行解码,并且只使用一个Transformer的编码器模块进行训练,简化了传统的编码器-解码器结构.同时在训练过程中引入了掩码机制,减小了与... 相似文献

6.

基于回译和集成学习的维汉神经机器翻译方法

冯笑杨雅婷董瑞艾孜麦提·艾尼瓦尔马博《兰州理工大学学报》2022,48(5):99

从高效利用现有资源的角度出发,针对维汉平行语料匮乏导致维汉神经机器翻译效果欠佳的问题,提出一个基于回译和集成学习的方法.首先,利用回译和大规模汉语单语语料构造出维汉伪平行语料,并利用伪平行语料进行训练得到中间模型;其次,使用自助采样法对原始平行语料进行N次重采样,得到N个近似同一分布但具有差异性的子数据集;基于N个子数据集分别对中间模型进行微调,得到N个具有差异性的子模型;最后,将这些子模型集成.在CWMT2015和CWMT2017的测试集上的实验证明,该方法比基线系统的BLEU值分别提升了2.37和1.63. 相似文献

7.

融入规则信息的神经机器翻译

秦文杰熊德意《厦门大学学报(自然科学版)》2020,(2):185-191

为了将统计机器翻译技术中的规则信息引入到端到端的神经网络模型中,提出了一种将规则信息转化为近似等价的序列信息的方法.在此基础上,提出了两种融入规则信息的神经机器翻译模型,并在基于注意力机制的循环神经网络(RNN)模型上进行了验证.相对于未融入规则信息的基准模型在美国国家标准与技术研究院(NIST)评测集上的评测结果,上述两种模型的双语互译评估(BLEU)值均有所提高.实验表明,将规则等外部知识融入到神经机器翻译系统中是提升模型翻译质量的一种有效途径. 相似文献

8.

低资源维汉神经机器翻译研究

王坤殷明明俞鸿飞韩冬斯拉吉艾合麦提·如则麦麦提西热艾力·海热拉刘文其艾山·吾买尔李军辉段湘煜张民《江西师范大学学报(自然科学版)》2019,43(6)

该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能. 相似文献

9.

基于数据增强及领域适应的神经机器翻译技术

谷舒豪单勇谢婉莹郭登级王树根邵晨泽薛海洋张良冯洋《江西师范大学学报(自然科学版)》2019,43(6)

近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性. 相似文献

10.

基于多语言联合训练的汉-英-缅神经机器翻译方法

满志博毛存礼余正涛李训宇高盛祥朱俊国《清华大学学报(自然科学版)》2021,61(9):927-935

多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。相似文献

11.

多语言的无监督神经机器翻译

薛擎天李军辉贡正仙《厦门大学学报(自然科学版)》2020,(2):192-197

依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.然而高质量平行语料的获取却是机器翻译研究的主要难点之一.为了解决这一问题,一种可行的方案是采用无监督神经机器翻译(unsupervised neural machine translation,UNMT),该方法仅仅使用两门不相关的单语语料就可以进行训练,并获得一个不错的翻译结果.受多任务学习在有监督神经机器翻译上取得的良好效果的启发,本文主要探究UNMT在多语言、多任务学习上的应用.实验使用3门互不相关的单语语料,两两建立双向的翻译任务.实验结果表明,与单任务UNMT相比,该方法在部分语言对上最高取得了2～3个百分点的双语互译评估(BLEU)值提升. 相似文献

12.

结合迁移学习的真实图像去噪算法

周联敏周冬明杨浩《科学技术与工程》2022,22(34):15237-15244

为了能有效地去除真实图像的复杂噪声,提出了一种结合迁移学习的真实图像去噪算法。该算法采用了双编码器结构,迁移学习编码单元利用预先训练好的权值有效提取鲁棒特征,残差编码单元对当前数据处理,进一步补充了信息。解码单元通过特征融合模块对丰富的信息进行融合,随后经过残差注意力模块加强对图像细节信息的关注,从而更好地恢复图像。实验结果表明,该算法在DND、SIDD和RNI15真实噪声数据集上有很好的泛化能力,能够在有效去除噪声的同时更好地保留图像纹理和边缘信息,恢复图像视觉效果更好。相似文献

13.

面向维汉神经机器翻译的双向重排序模型分析 总被引：1，自引：0，他引：1

张新路李晓杨雅婷王磊董瑞《北京大学学报(自然科学版)》2020,56(1):31-38

在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。相似文献

14.

融合数据增强与多样化解码的神经机器翻译

张一鸣刘俊鹏宋鼎新黄德根《厦门大学学报(自然科学版)》2021,(4):670-674

基于神经机器翻译模型Transformer,提出一种融合数据增强技术和多样化解码策略的方法来提高机器翻译的性能.首先,对训练语料进行预处理和泛化,提高语料质量并缓解词汇稀疏的现象;然后,基于数据增强技术使用单语句子构造伪双语数据,扩充双语平行语料以增强模型;最后,在解码阶段融合检查点平均、模型集成、重打分等策略以提高译... 相似文献

15.

神经机器翻译的词级别正则化

邱石贵章化奥段湘煜张民《厦门大学学报(自然科学版)》2021,(4):662-669

由于神经机器翻译模型具有大规模参数且其性能极大地依赖大规模高质量平行语料,当训练数据规模小于模型复杂度时,模型易出现过拟合问题而泛化能力不足.针对此问题,研究了词级别的正则化技术,通过对模型输入句子中的单词进行随机干扰,以此削弱数据的特异性,从而抑制模型对于数据的过度学习,防止过拟合,提高模型的泛化能力.通过Trans... 相似文献

16.

基于单词领域特征敏感的多领域神经机器翻译

黄增城满志博张玉洁徐金安陈钰枫《北京大学学报(自然科学版)》2023,59(1):1-10

鉴于现有基于单词的领域特征学习方法在领域识别上的精度较低,为提高领域判别和提供准确的翻译,提出一种单词级别的领域特征敏感学习机制,包括两方面:1)编码器端的上下文特征编码,为了扩展单词级别的领域特征学习范围,引入卷积神经网络,并行提取不同大小窗口的词串作为单词的上下文特征;2)强化的领域特征学习,设计基于多层感知机的领域判别器模块,增强从单词上下文特征中获取更准确领域比例的学习能力,提升单词的领域判别准确率。在多领域UM-Corpus英–汉和OPUS英–法翻译任务中的实验结果显示,所提方法平均BLEU值分别超过强基线模型0.82和1.06,单词的领域判别准确率比基线模型分别提升10.07%和18.06%。对实验结果的进一步分析表明,所提翻译模型性能的提升得益于所提出的单词领域特征敏感的学习机制。相似文献

17.

网页的机器翻译

陆正海《科技信息》2008,(31):62-62

本文,作者首先简单介绍了网页机器翻译的现状及网页的构成,然后作者提出了一个网页机器翻译的模型,整个模型分成两个部分：有标记文本的翻译和纯文本的翻译。至于有标记文本,作者提出了一个4步法来恰当处理标记,而纯文本的翻译就相对简单。为了提高翻译质量,本文还首先确定了文本的语域,然后使用了EMBT来翻译文本。相似文献

18.

基于子词的句子级别神经机器翻译的译文质量估计方法

李培芸翟煜锦项青宇李茂西裘白莲罗文兵王明文《厦门大学学报(自然科学版)》2020,(2):159-166

目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出了基于字节对编码(BPE)子词切分和基于一元文法语言模型子词切分的神经译文质量估计方法,并将两者的译文质量估计的得分与基于词语切分的神经译文质量估计得分融合后进行译文质量估计.在WMT18句子级别译文质量估计子任务数据集上的实验结果表明:融合BPE子词切分、一元文法语言模型子词切分和词语切分的神经译文质量估计方法的性能在多个评测子任务上超过了WMT18给出的最好参与系统,深入的实验分析进一步揭示了融合不同粒度的句子切分方法提高了译文质量估计的健壮性. 相似文献

19.

多策略切分粒度的藏汉双向神经机器翻译研究

沙九冯冲张天夫郭宇航刘芳《厦门大学学报(自然科学版)》2020,(2):213-219

现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性. 相似文献

20.

融合篇章上下文有效识别的篇章级机器翻译

汪浩贡正仙李军辉《厦门大学学报(自然科学版)》2021,(4):655-661

篇章翻译是近来兴起的研究热点,如何在翻译文档时充分利用篇章信息一直是该研究的关键点和难点.在篇章级机器翻译中,如何选取当前句的篇章上下文是非常关键的.虽然相关研究使用的篇章上下文不尽相同,但是却少有在选取之前对上下文信息进行识别筛选.本文提出了一种融合篇章上下文有效识别的篇章级翻译模型,引入判别篇章上下文是否有效的分类... 相似文献