首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.然而高质量平行语料的获取却是机器翻译研究的主要难点之一.为了解决这一问题,一种可行的方案是采用无监督神经机器翻译(unsupervised neural machine translation,UNMT),该方法仅仅使用两门不相关的单语语料就可以进行训练,并获得一个不错的翻译结果.受多任务学习在有监督神经机器翻译上取得的良好效果的启发,本文主要探究UNMT在多语言、多任务学习上的应用.实验使用3门互不相关的单语语料,两两建立双向的翻译任务.实验结果表明,与单任务UNMT相比,该方法在部分语言对上最高取得了2~3个百分点的双语互译评估(BLEU)值提升.  相似文献   

2.
针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题,提出仅需要单语语料训练的无监督的句法可控复述生成模型,用以生成对抗样本.采用变分自编码方式学习模型,首先将句子和句法树分别映射为语义变量和句法变量,然后基于语义变量和句法变量重构原始句子.在重构过程中,模型可以在不使用任何平行语料...  相似文献   

3.
徐春 《科技信息》2011,(17):I0104-I0105
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。  相似文献   

4.
反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.  相似文献   

5.
本文考察了2007-2013年间国内语料库翻译研究的期刊文献,通过分析发现,国内基于语料库的翻译研究经过前期的起步阶段,正迈进深入探索时期;在研究方法上,非材料性研究与材料性研究数量差距正逐步缩小;研究领域呈现多样化发展趋势,双语平行语料库建设、口译研究、机器翻译等方向日益引起学者关注. 虽然国内语料库翻译研究取得了丰硕的成果,但不容忽视的是其在技术层面、研究的广度和深度及研究方法上仍然面临着一些局限,亟待突破.  相似文献   

6.
语料库翻译学经历了30年的发展,在理论探讨、翻译共性研究、翻译文体研究、翻译教学研究等主要领域都取得了一定的成果,但是,研究的广度与深度还有待拓展.目前,语料库翻译学正发生着理论思路与研究方法的转向:不再止步于量化统计和笼统概括,而是提倡结合文本内、外因素,进行全面深入的质性解释;不再单纯以平行语料库或类比语料库为基础进行研究,而是提倡两者相结合.  相似文献   

7.
针对航海领域中船舶自动识别系统(AIS)无法利用中文给我国使用者带来的识别障碍问题,研究了AIS拼音信息到汉字的智能翻译技术.在建立标准化汉字和拼音船名语料库的基础上,分别搭建了基于Seq2Seq和Transformer框架的智能船名翻译的深度学习模型.通过在同一数据集上的性能对比分析发现,Transformer模型具有更好的效果.为弥补Transformer模型受语料库规模限制而带来的翻译损失,进一步研究了其与隐马尔科夫链(HMM)的联合翻译模型,最终,在测试集上达到了98.92%的准确率,实现了对AIS拼音船名的精准匹配和合理翻译.该模型同样适用于AIS中目的港等拼音信息到汉字的翻译,对于提升AIS信息使用者的体验具有实际应用价值.  相似文献   

8.
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。  相似文献   

9.
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升...  相似文献   

10.
传统翻译教学以教师为中心,无法很好调动学生的积极性。借助语料库进行翻译教学,学生通过探索式、发现式和"做中学"的活动发现、总结和归纳语言运用的特征和规律,有利于培养学生解决问题的能力和学习能力。适用于翻译教学的语料库主要有平行语料库,可比语料库和自建小型语料库。  相似文献   

11.
面向维汉神经机器翻译的双向重排序模型分析   总被引:1,自引:0,他引:1  
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。  相似文献   

12.
语料库翻译学经历了30年的发展,在理论探讨、翻译共性研究、翻译文体研究、翻译教学研究等主要领域都取得了一定的成果,但是,研究的广度与深度还有待拓展。目前,语料库翻译学正发生着理论思路与研究方法的转向:不再止步于量化统计和笼统概括,而是提倡结合文本内、外因素,进行全面深入的质性解释;不再单纯以平行语料库或类比语料库为基础进行研究,而是提倡两者相结合。  相似文献   

13.
提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。  相似文献   

14.
王勇 《河南科学》2020,38(1):63-68
为了实现油井工况的自动评估与智能管理,达到防范风险的目标,基于深度学习技术建立了油井工况智能监测与风险防控方法.将实际油田数万条示功图数据整理为卷积神经网络模型的训练集,并基于该训练集,利用监督误差反向传播算法对基于卷积神经网络模型的示功图识别模型进行了训练和测试.结果表明,基于深度学习技术的示功图识别模型的准确度达到95%以上.研究成果应用于国内某油田,采油系统效率总体提升2.67%,工况合格率提升11%,防范风险成功率提高60%.研究成果为同类油田提供了一定的技术借鉴.  相似文献   

15.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

16.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

17.
生物医学复杂关系提取已经成为文本挖掘领域的焦点,而用于训练预测模型的注释语料库高度非平衡,且大多是针对单个注释语料库训练的监督模型,极大地限制了系统性能。因此,提出一种显著空间SVM自训练半监督学习方法,通过平衡初始模型诱导未标签训练数据,将领域知识纳入事件提取模型,识别多数类子集,构建预测模型。通过设计实验评估证明了训练语料库的有效性。  相似文献   

18.
文本情绪分类是自然语言处理研究中的一项基本任务.目前,已有的文本情绪分类研究大都在单语语料上进行,存在已标注样本不足、分类文本较短、信息量少等问题.为了解决上述问题,提出了一种基于双语信息和神经网络模型的情绪分类方法.首先,利用机器翻译工具对源语料进行翻译得到翻译语料;其次,将对应语言的语料进行合并,得到两组不同语言的语料;最后,将文本分别使用源语言和翻译语言进行特征表示,建立双通道长短期记忆(long short-term memory,LSTM)网络模型融合两组特征,并构建情绪分类器.实验结果表明该方法能够稳定提升文本情绪分类的性能.  相似文献   

19.
商务英语翻译是商务交际的重要环节,也是商务英语专业的核心课程。该文分析了目前商务英语翻译教学的现状以及存在的问题,指出在商务英语翻译课堂中引入语料库是创新商务英语教学的一条有效途径。鉴于商务合同在商业活动中的重要地位,笔者创建了商务合同英汉双语平行专用语料库,并揭示了其在商务英语翻译教学中巨大的应用价值,以期为平行语料库与商务翻译教学有机融合的相关研究做出贡献。  相似文献   

20.
以语料库翻译学相关理论为理论基础,通过在自建双语电影字幕平行语料库中对汉语"喜欢"和英语"know"及其对应的各种译句的分析,发现电影字幕翻译中对词的翻译远比词典中提供的翻译选项更形象、全面。最后得出结论:在翻译教学中,可考虑使用电影字幕平行语料库,以收到更好的翻译效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号