首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

2.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

3.
基于神经机器翻译模型Transformer,提出一种融合数据增强技术和多样化解码策略的方法来提高机器翻译的性能.首先,对训练语料进行预处理和泛化,提高语料质量并缓解词汇稀疏的现象;然后,基于数据增强技术使用单语句子构造伪双语数据,扩充双语平行语料以增强模型;最后,在解码阶段融合检查点平均、模型集成、重打分等策略以提高译...  相似文献   

4.
面向维汉神经机器翻译的双向重排序模型分析   总被引:1,自引:0,他引:1  
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。  相似文献   

5.
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别...  相似文献   

6.
针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMT-CV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越翻译模型的编码器与解码器参数进行初始化,并使用小规模汉越语料进行微调优化,得到TLN...  相似文献   

7.
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。  相似文献   

8.
从差异性出发,研究了基于特征技术与数据技术的集成学习算法,深入分析了这些集成学习算法产生差异性的方法;针对决策树与神经网络模型在标准数据集对集成学习算法进行了实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素,并且基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能.  相似文献   

9.
为提高旋转机械故障识别精度,将神经网络与集成学习方法进行结合,提出结合扰动方式的集成RBF故障模式识别方法.首先,通过ReliefF算法计算所提取出的转子故障特征数据集各个特征的权重,并且将权重值进行降序排列,从而筛选出权重趋大的系列特征构成低维特征数据集;其次,将较大权重作为无放回轮盘赌法的输入,对权重所对应的低维特征数据集进行特征扰动,产生系列化低维数据子集并将其划分为训练集和测试集;然后,采用Bagging算法中的自助采样法对训练集进行样本扰动,以此形成新的训练集并用于训练对应个数的RBF神经网络,完成差异性子分类器的构建;最终,对各个神经网络的测试数据辨识结果通过相对多数投票法进行结合,得到故障识别结果.实验结果表明,对于转子系统的故障识别,该方法相较于未集成RBF神经网络、集成BP神经网络具有较高的识别精度,并且拥有较好的泛化性能.  相似文献   

10.
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹...  相似文献   

11.
统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别获得0.67和0.56个BLEU值的性能提升。  相似文献   

12.
作为一种极其有效的资源,英汉/汉英翻译语料库以其大量的对译材料为语言教学,尤其是翻译教学提供了新的途径。学习者可以利用其来获得丰富的教学资料,并证实译文模式和翻译知识。  相似文献   

13.
可比语料库由于其自身优势和广泛用途逐渐成为语料库研究的热点方向之一,而目前国内俄汉可比语料库相关研究未见学者涉及。通过梳理国内外相关研究成果,设计了一种基于维基百科构建俄汉可比语料库的思路和方法,研制了语料自动获取系统,以篇章对齐为基础建立了俄汉可比语料库,语料字(词)总数达到了百万级,最后利用跨语言相似度计算的方法对俄汉语料的可比度进行计算。计算结果表明该方法能够有效获取可比度较高的俄汉语料,所构建的语料库可被用于俄汉翻译、话语分析及计算语言学研究中。  相似文献   

14.
在信息技术迅猛发展的Intemet时代,迫切需要通过机器翻译来解决各民族之间的文字沟通障碍.提出了一个基于规则和语料的英藏机器翻译系统的语言模型及结构设计,给出了系统的设计思想、设计原则,深入分析了翻译方法的选择,阐述了系统的总体结构、翻译算法及语言模型.  相似文献   

15.
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。  相似文献   

16.
通过系统的文献调研,对2004—2010年间期刊(主要以外语类为主)发表的公示语翻译研究方面的文章进行了综述,从翻译理论研究、文本类型研究、错误分析与对策、翻译方法探索等方面,总结了中国公示语翻译研究取得的成绩及存在的问题,并对该领域的未来发展趋势及研究重点进行了探讨,以期为今后的公示语翻译研究提供一些思路。  相似文献   

17.
随着语料库语言学的兴起,基于实例的机器翻译得到越来越多的研究,本文设计了一个完整的基于实例的机器翻译系统的模型,并对对齐处理、相似度计算和检索方法做了详细说明.  相似文献   

18.
项目的主体语料为国务院政府工作报告,要求中文规范,英文标准,翻译难度很大,是提高专业和学习翻译的好素材。双语平行语料库的编制实践作为传统课堂教学的有益补充,可以让学生从语料收集、整理、加工、运用等方面得到一次综合训练,以进一步提高专业素养与综合能力。以2000-2011年这12年国务院政府工作报告(汉英双语,约40万字)为蓝本,结合大学生实践创新训练项目,剖析微型汉英双语平行语料库的主要编制过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号