首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能.  相似文献   

2.
从高效利用现有资源的角度出发,针对维汉平行语料匮乏导致维汉神经机器翻译效果欠佳的问题,提出一个基于回译和集成学习的方法.首先,利用回译和大规模汉语单语语料构造出维汉伪平行语料,并利用伪平行语料进行训练得到中间模型;其次,使用自助采样法对原始平行语料进行N次重采样,得到N个近似同一分布但具有差异性的子数据集;基于N个子数据集分别对中间模型进行微调,得到N个具有差异性的子模型;最后,将这些子模型集成.在CWMT2015和CWMT2017的测试集上的实验证明,该方法比基线系统的BLEU值分别提升了2.37和1.63.  相似文献   

3.
聂昕 《科技信息》2011,(6):57-57
本文通过正确理解偏见以及性别偏见的概念,认识性别偏见产生的机制及其不利影响,可以有效的发现并探讨现今教育当中遇到的性别偏见问题,以及可以采取什么样的方法来避免这种偏见问题的发生。  相似文献   

4.
面向维汉神经机器翻译的双向重排序模型分析   总被引:1,自引:0,他引:1  
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。  相似文献   

5.
该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析.  相似文献   

6.
性别偏见是指人们对男性和女性在行为、个性特征等方面予以的概括、归纳和总结,得出的一种不公正的态度。本文通过对当地各种民俗的介绍,揭示了当地存在着严重的性别偏见现象,并进一步对其成因进行分析。  相似文献   

7.
基于神经机器翻译模型Transformer,提出一种融合数据增强技术和多样化解码策略的方法来提高机器翻译的性能.首先,对训练语料进行预处理和泛化,提高语料质量并缓解词汇稀疏的现象;然后,基于数据增强技术使用单语句子构造伪双语数据,扩充双语平行语料以增强模型;最后,在解码阶段融合检查点平均、模型集成、重打分等策略以提高译...  相似文献   

8.
为了将统计机器翻译技术中的规则信息引入到端到端的神经网络模型中,提出了一种将规则信息转化为近似等价的序列信息的方法.在此基础上,提出了两种融入规则信息的神经机器翻译模型,并在基于注意力机制的循环神经网络(RNN)模型上进行了验证.相对于未融入规则信息的基准模型在美国国家标准与技术研究院(NIST)评测集上的评测结果,上述两种模型的双语互译评估(BLEU)值均有所提高.实验表明,将规则等外部知识融入到神经机器翻译系统中是提升模型翻译质量的一种有效途径.  相似文献   

9.
根据维、汉文不同的语言特点,在维汉机器翻译系统研究的基础上,提出了该系统不可缺少的子系统——“维汉机器翻译电子词典”的研究与设计方案.  相似文献   

10.
在Transformer模型的基础上,该文从数据泛化、多样化解码策略和后处理方法3个方面进行改进.多种数据泛化策略融合方法对不同种类的稀疏词语进行识别、泛化和翻译,减少错译现象.利用检查点平均和模型集成等多样化解码策略进一步提升翻译效果.在CCMT 2019中英新闻领域翻译任务上的实验结果显示,改进后的方法在基线系统上的BLEU-SBP值提升了约1.85%.  相似文献   

11.
基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤方法得到通用领域俄汉语料,然后在不同参数配置的Transformer模型上进行预训练,探索多种领域适应性微调方法,得到最优模型,最后在译码阶段采用模型平均和后处理生成翻译结果.实验结果表明,该方法可以有效提升低资源场景下的俄汉机器翻译效果.  相似文献   

12.
近年来,神经机器翻译模型已经成为机器翻译领域的主流模型,如何从大量的训练数据中快速、准确地学习翻译知识是一个值得探讨的问题.不同训练样本的难易程度不同,样本的难易程度对模型的收敛性有极大影响,但是传统的神经机器翻译模型在训练过程中并没有考虑这种差异性.本文探究样本的难易程度对神经机器翻译模型训练过程的影响,基于“课程学...  相似文献   

13.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

14.
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升...  相似文献   

15.
近年来,Transformer模型中多层注意力网络的使用有效提升了翻译模型的译文质量,但同时大量注意力操作的使用也导致模型整体的推断效率相对较低.基于此,提出了从粗粒度到细粒度(coarse-to-fine,CTF)的方法,根据注意力权重中的信息量差异对信息表示进行细粒度压缩,最终达到加速推断的目的.实验发现,在NIST中英和WMT英德翻译任务上,该方法在保证模型性能的同时,推断速度分别提升了13.9%和12.8%.此外,还进一步分析了注意力操作在不同表示粒度下的信息量差异,对该方法的合理性提供支持.  相似文献   

16.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.然而高质量平行语料的获取却是机器翻译研究的主要难点之一.为了解决这一问题,一种可行的方案是采用无监督神经机器翻译(unsupervised neural machine translation,UNMT),该方法仅仅使用两门不相关的单语语料就可以进行训练,并获得一个不错的翻译结果.受多任务学习在有监督神经机器翻译上取得的良好效果的启发,本文主要探究UNMT在多语言、多任务学习上的应用.实验使用3门互不相关的单语语料,两两建立双向的翻译任务.实验结果表明,与单任务UNMT相比,该方法在部分语言对上最高取得了2~3个百分点的双语互译评估(BLEU)值提升.  相似文献   

17.
为向基于深度学习的机器翻译质量估计模型提供高效的训练数据, 提出面向目标数据集的伪数据构造方法, 采用基于伪数据预训练与模型精调相结合的两阶段模型训练方法对模型进行训练, 并针对不同伪数据规模设计实验。结果表明, 在构造得到的伪数据下, 利用两阶段训练方法训练得到的机器翻译质量估计模型给出的得分与人工评分的相关性有显著的提升。  相似文献   

18.
由于神经机器翻译模型具有大规模参数且其性能极大地依赖大规模高质量平行语料,当训练数据规模小于模型复杂度时,模型易出现过拟合问题而泛化能力不足.针对此问题,研究了词级别的正则化技术,通过对模型输入句子中的单词进行随机干扰,以此削弱数据的特异性,从而抑制模型对于数据的过度学习,防止过拟合,提高模型的泛化能力.通过Trans...  相似文献   

19.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

20.
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号