首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
虽然源语言和目标语言单语数据已被证明通过正向翻译和反向翻译改进神经机器翻译非常有用,但如何更有效的同时使用还值得更深入的研究.为了在神经机器翻译中更有效地同时使用源语言和目标语言单语数据,本文提出了一种基于集束搜索的正向翻译和基于最优N随机采样的反向翻译的组合方法.具体地,将该方法应用于第十七届全国机器翻译大会(CCMT 2021)汉英和英汉新闻领域的翻译评测任务,实验结果表明,与其他常用的单语数据增强方法相比,该方法可以更有效地提升神经机器翻译模型的翻译质量.此外,在使用该方法之前,先进行领域知识迁移还可以进一步取得翻译质量的提升.  相似文献   

2.
神经机器翻译综述   总被引:1,自引:0,他引:1  
机器翻译研究在非人工干预的情况下,利用计算机自动地实现不同语言之间的转换,是自然语言处理和人工智能的重要研究领域,神经机器翻译(neural machine translation,NMT)利用神经网络实现源语言到目标语言的转换,是一种全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在很多语言对上超过了统计机器翻译方法.首先介绍神经机器翻译的基本思想和主要方法,然后对最新的前沿进展进行综述,最后对神经机器翻译的未来发展方向进行展望.  相似文献   

3.
情感分类的主要目的是预测用户在互联网中发布情绪数据的极性(积极的或者消极的),各种语言的情感分析已经成为诸多应用的研究热点,然而由于不同语言的情感资源在质量和数量上的不平衡,通常使用源语言来改善目标语言的跨语言情感分类方法,来提高目标语言情感分类的准确性.传统的跨语言情感分类主要是通过机器翻译将目标语言映射到源语言中,但是分类的准确性严重受到机器翻译质量的影响.通过对跨领域文本分类的结构学习算法(SCL)的讨论和拉普拉斯映射对两种语言之间词对的影响,对跨语言结构对应学习算法(CLSCL)的改进,进而提出M-CLSCL算法,借助选出来的轴心词对来进行目标语言的情感分类,通过M-CLSCL方法与前述相关方法的实验结果进行比较,可以发现M-CLSCL提高了情感分类的准确性.  相似文献   

4.
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.  相似文献   

5.
描述了基于短语统计的汉语-维吾尔语(简称汉维)机器翻译解码器。搜索算法的效率是解码的关键,基于短语统计的搜索算法在汉维机器翻译中是首次使用,并构建翻译备选项列表,基本实现了汉维机器翻译的解码器研究设计。分析对比实验结果,证明该搜索算法的有效性。  相似文献   

6.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

7.
描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。  相似文献   

8.
统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别获得0.67和0.56个BLEU值的性能提升。  相似文献   

9.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

10.
目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出了基于字节对编码(BPE)子词切分和基于一元文法语言模型子词切分的神经译文质量估计方法,并将两者的译文质量估计的得分与基于词语切分的神经译文质量估计得分融合后进行译文质量估计.在WMT18句子级别译文质量估计子任务数据集上的实验结果表明:融合BPE子词切分、一元文法语言模型子词切分和词语切分的神经译文质量估计方法的性能在多个评测子任务上超过了WMT18给出的最好参与系统,深入的实验分析进一步揭示了融合不同粒度的句子切分方法提高了译文质量估计的健壮性.  相似文献   

11.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

12.
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%.  相似文献   

13.
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量.  相似文献   

14.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

15.
深度学习方法凭借对语义的深度理解能力在机器翻译领域取得长足的进步.然而,对于低资源语言,大规模双语语料的缺乏易导致模型过拟合.针对低资源神经机器翻译数据稀疏的问题,提出了一种迭代知识精炼的对偶学习训练方法,利用回译扩充双语平行语料,通过迭代调整伪语料和真实语料比例,在学习语言表征的同时降低噪声风险,最后结合译文质量及流利度奖励,在源语-目标语和目标语-源语两个方向上优化模型参数,从而达到提升译文质量的目的.在第15届全国机器翻译大会(CCMT 2019)蒙古语-汉语翻译任务上进行了多项实验,结果表明本文方法相比基线提高显著,充分证明该方法的有效性.  相似文献   

16.
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出结果的性别偏见问题,在代词性别预测的精度上也有显著提升.  相似文献   

17.
基于后验概率词格的汉语自然对话语音索引   总被引:1,自引:0,他引:1  
语音索引是语音检索任务的关键问题之一.该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法.采用后验概率形式表示的词格取代最优路径进行索引.根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%.根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LVSCR得到的)和66.9%(用音节识别器得到的)提高到78.8%.  相似文献   

18.
探讨汉语彝语机器翻译的方法与实现.阐述了课题研究的背景和意义,给出了技术实施中的时态转换的匹配规则,汉彝句型转换的翻译初步实践、汉语句子单词切分时的边界处理算法.从而实现对源语言汉语单词的切分检索,通过算法对语句进行调序,再结合彝族特定的语法、句型结构,最终生成目标语言彝语.即采用适合汉彝语法的句法结构转换再增减恰当的词汇来构成符合源语句语义信息的目标语句,从而达到汉彝机器翻译的基本层次.  相似文献   

19.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

20.
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号