首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 674 毫秒
1.
徐春 《科技信息》2011,(17):I0104-I0105
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。  相似文献   

2.
为了解决汉英平行语料中带噪声的问题,通过设计规则方法、统计方法(包括Zipporah系统、词对齐模型、语言模型)以及神经网络方法(包括翻译模型和双语预训练模型),从不同侧重点对汉英句对平行程度进行度量.结果表明翻译模型和双语预训练模型在过滤优质平行语料任务上有良好表现.最后,对于表现优异的方法,按照加法和乘法两种方式进...  相似文献   

3.
构建大规模的汉英双语平行语料库   总被引:1,自引:0,他引:1  
刘荣 《太原科技》2006,(10):84-85
鉴于互联网上存在着大量的双语互译文本.如何通过这些双语互译文本来建立大规模的双语语料库.是对双语互译文本深加工和不同目的应用的关键问题。主要提出了一个大规模汉英双语平行语料库的构建工作.包括其总体规划、实施模型和流程细节。  相似文献   

4.
分析翻译课程中多模态学习者双语语料库的构建问题。将计算机辅助翻译(CAT)技术纳入翻译教学,利用CAT平台,构建包含文本、视频等多种模态的新型学习者双语语料库,并以雪人翻译软件为例,探讨多模态学习者双语语料库构建的选材、语料加工、检索等问题以及具体构建步骤和方法。  相似文献   

5.
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。  相似文献   

6.
以语料库翻译学相关理论为理论基础,通过在自建双语电影字幕平行语料库中对汉语"喜欢"和英语"know"及其对应的各种译句的分析,发现电影字幕翻译中对词的翻译远比词典中提供的翻译选项更形象、全面。最后得出结论:在翻译教学中,可考虑使用电影字幕平行语料库,以收到更好的翻译效果。  相似文献   

7.
商务英语翻译是商务交际的重要环节,也是商务英语专业的核心课程。该文分析了目前商务英语翻译教学的现状以及存在的问题,指出在商务英语翻译课堂中引入语料库是创新商务英语教学的一条有效途径。鉴于商务合同在商业活动中的重要地位,笔者创建了商务合同英汉双语平行专用语料库,并揭示了其在商务英语翻译教学中巨大的应用价值,以期为平行语料库与商务翻译教学有机融合的相关研究做出贡献。  相似文献   

8.
汉文-维吾尔文句子对齐模型的XML标记规范   总被引:1,自引:0,他引:1  
近些年来,在语言信息处理研发、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来.在双语语料库中,不仅要描述双语文本在句子一级的对齐信息,还要详细描述收入语料库中的双语文本的所有者、领域、时间等方面的属性信息.为便于数据交换和共享,所有语料文本均采用XML编码方式来描述信息.详细阐述了构建的汉文-维吾尔文平行语料库的对齐句子和一些属性信息的XML标记规范和XML标记算法的设计方法.  相似文献   

9.
随着对外交流的扩大,中国英语的相关翻译成为了汉译英中的一个难点问题,本文以自建的儒家经典双语平行语料库为例,提出建立经典文献的双语语料库,从中搜索相关内容的规范译文,来促进对外翻译水平的提高。  相似文献   

10.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器...  相似文献   

11.
秦腔表演包含的台词、身段、唱腔、脸谱和服饰等要素,构成了秦腔语言与非语言模态,为目标语受众呈现秦腔的多层次意义,是一种典型的动态多模态话语。多模态语料库作为新兴的语料库研究领域,为秦腔研究提供了新方向。基于张德禄多模态话语分析模型,提出秦腔汉英多模态双语语料库构建的基本步骤,并从指导秦腔翻译实践、创新CAT教学内容和搭建秦腔外宣资源平台三方面探讨该语料库如何应用于戏曲翻译人才培养和戏曲文化的对外传播。  相似文献   

12.
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。  相似文献   

13.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

14.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

15.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.然而高质量平行语料的获取却是机器翻译研究的主要难点之一.为了解决这一问题,一种可行的方案是采用无监督神经机器翻译(unsupervised neural machine translation,UNMT),该方法仅仅使用两门不相关的单语语料就可以进行训练,并获得一个不错的翻译结果.受多任务学习在有监督神经机器翻译上取得的良好效果的启发,本文主要探究UNMT在多语言、多任务学习上的应用.实验使用3门互不相关的单语语料,两两建立双向的翻译任务.实验结果表明,与单任务UNMT相比,该方法在部分语言对上最高取得了2~3个百分点的双语互译评估(BLEU)值提升.  相似文献   

16.
孙斯琪 《镇江高专学报》2016,(4):104-107,119
在数学教学实践的基础上,以英语语言学专业知识为背景,以语料库为主要语料处理工具与方法,分析100篇美国和100篇苏教版《小学数学》低年级学段教学设计、教学反思、教学实录,初步对比研究中美小学低年级学段数学的教学设计、教师课堂教学话语特点。定量和定性分析基于语料库的200余篇语料文件,有利于理解美国小学低年级学段数学课堂教学特点,借鉴优点,丰富数学双语教学的专业知识。  相似文献   

17.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

18.
近年来,基于神经网络的机器翻译取得了快速发展,然而由于它需要大规模的平行语料库,所以对于资源稀缺的小语种的翻译往往显得效果不佳.在分析编码-解码框架和注意力机制的基础上,基于对偶学习的思想,提出了一种面向小语种翻译的半监督神经网络模型.该模型利用较大的单语语料库与少量平行语料库来实现小语种翻译.实验结果表明,当平行语料资源不足以训练一个普通神经网络模型时,使用半监督网络模型能够取得较好的结果,但所采用的半监督学习模型对单语语料库的数量要求非常高,要达到一定数量级才能达到良好效果.  相似文献   

19.
教学型汉英口语平行语料库的建立,旨在帮助英语学习者从母语文化的角度切入,按照中国人语言习惯和传统习俗来学习英语口语,最大限度消除学生说英语的恐惧,强化自我认知,树立信心。构建教学型汉英口语平行语料库可以为大学生英语学习者提供一个顺应时代、符合学情和大学生心理认知的英语口语学习资源库,同时也为一线教师从事英语口语实践教学提供详实、可靠的数据支持,从而最终实现提升学生英语口语实际运用能力的教学目标。  相似文献   

20.
以《尼山萨满》为例,利用语料库的技术手段保护和传承少数民族文化典籍。构建了一个满族典籍的平行语料库系统原型,重点研究了该平行语料库的语料对齐方法,分别研究了两种段落对齐方法和三种句子对齐方法,并对各个方法进行了性能评价,最终选出最适合该平行语料库的对齐方法。测试结果表明,最终选取的对齐方法满足构建满族典籍平行语料库的需求,从而为其他同类型的少数民族语料库构建提供更多的参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号