首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

2.
虽然源语言和目标语言单语数据已被证明通过正向翻译和反向翻译改进神经机器翻译非常有用,但如何更有效的同时使用还值得更深入的研究.为了在神经机器翻译中更有效地同时使用源语言和目标语言单语数据,本文提出了一种基于集束搜索的正向翻译和基于最优N随机采样的反向翻译的组合方法.具体地,将该方法应用于第十七届全国机器翻译大会(CCMT 2021)汉英和英汉新闻领域的翻译评测任务,实验结果表明,与其他常用的单语数据增强方法相比,该方法可以更有效地提升神经机器翻译模型的翻译质量.此外,在使用该方法之前,先进行领域知识迁移还可以进一步取得翻译质量的提升.  相似文献   

3.
在汉英机器翻译的设计中,句型处理是核心问题.研究背景是自然语言处理系统,相关的探讨是一项有益而复杂的课题,涉及的技术很多.其中,句型处理就被列为机器翻译最为急迫解决的问题之一.工作主要有两项:一是分析了汉英机器翻译句型处理的特点,给出了一些汉英机器翻译句型的举例;二是阐述了在汉英机器翻译中类比式的工作原理,即设计了相似度计算方法.  相似文献   

4.
机器翻译涉及的技术很多,主要工作有两部分:第一部分给出一种汉英机器翻译中的短语处理方法,包括短语切分和短语查找;第二部分研究了汉英机器翻译中译文生成的一些问题.  相似文献   

5.
句型转换式机器翻译涉及的技术很多.主要工作有四部分:第一部分给出一种自动分词边界问题处理方法;第二部分探讨一般句与疑问句的句型结构;第三部分研究汉英机器翻译的译文生成问题;第四部分是一种"是"动词"am;is;are"的处理方法.  相似文献   

6.
机器翻译是人工智能领域的热点问题。在实际应用过程中,平行语料库的收集和构建直接影响机器翻译的效果。随着我国数字业务的快速发展,以及“一带一路”背景下国际交流频率的不断增加,中哈互译需求凸显。针对汉哈文机器翻译个性化的技术要求,结合哈萨克语的特点,本文提出一种基于信息内容比例的段落对齐方法,开发设计了辅助工具软件Corpus,利用该工具对汉-哈文之间的段落对齐进行可视化,并利用段落对齐方法进行数据的编排存储。实验结果表明,基于本文提出的方法,汉-哈平行篇章与段落手工对齐正确率达到94.5%,95.2%;自动对齐正确率达到87.5%,89.3%,能够提升平行文本的对齐质量,成功建立篇章与段落对齐的汉-哈平行语料库。  相似文献   

7.
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。  相似文献   

8.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

9.
近年来,神经机器翻译模型已经成为机器翻译领域的主流模型,如何从大量的训练数据中快速、准确地学习翻译知识是一个值得探讨的问题。不同训练样本的难易程度不同,样本的难易程度对模型的收敛性有极大影响,但是传统的神经机器翻译模型在训练过程中并没有考虑这种差异性。本文探究样本的难易程度对神经机器翻译模型训练过程的影响,基于"课程学习"的思想,为神经机器翻译模型提出了一种基于样本难度的动态学习方法:分别从神经机器翻译模型的翻译效果和训练样本的句子长度2方面量化训练样本的难易程度;设计了由易到难和由难到易2种学习策略训练模型,并比较模型的翻译效果。  相似文献   

10.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

11.
将篇章结构表示为小句关联结构, 与修辞结构等层次化篇章结构模式相比, 可以有效地刻画非连续和跨层级的小句之间的直接语义关联。首先, 提出篇章小句关联结构的形式表示、判断准则和形式限制, 并进行人工标注。然后, 对汉语篇章小句关联结构进行自动识别。在自建汉语篇章小句关联结构语料库上, 基于分类模型, 设计连接词和词汇等分类特征, 得到的最佳识别准确率达92.70%。实验结果表明, 语料整体取样比独立取样取得的去环效果好; 词汇、小句距离及句域等分类特征对识别的贡献较大; 远距离和跨大句是小句关联识别的难点, 但相邻小句和同一大句内的小句对的不相关识别难度更大。  相似文献   

12.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

13.
汉语复句本体模型初探   总被引:7,自引:0,他引:7  
汉语的句子从结构上可以划分为单句和复句两大类,复句的意义容量比一般单句大,常表示人和人、事和事及人与物的逻辑意义关系.而复句一般由分句构成,各分句单独从其结构上看实际上就是小句.本文详细分析了复旬的静态结构及它与汉语小句的关系,在通过面向对象本体建模方法构造出的小句元模型的基础之上,初步探讨了复句静态本体模型.复句静态本体模型为中文信息处理从字、词处理级提升到句处理级及句处理级以上的研究提供了基础.  相似文献   

14.
小句关系理论及其应用   总被引:1,自引:0,他引:1  
小句关系理论虽调小句之间的逻辑语义关系,主线语篇是一个关系系统而非实体,与小句的传统语法定义不同,这里的小句作为一个语义块跟句组,段落甚至语篇是等价的。该理论提出了揭示小句关系的有效手段,词汇Ⅰ、Ⅱ词汇 、词汇Ⅲ 和设问等,“半虚义词”和元结构项止具有预示的衔接功能。该理论可以用来分析语篇,揭示语篇模式。  相似文献   

15.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

16.
The complex sentence structure of English is a bottleneck to our practical machi ne translation system. The simplification of English subordinate clauses will gr eatly relieves the burden of parsing and other grammatical or semantic analysis of a complex sentence, thus improves the output quality of the MT system. But th ere have not any satisfactory research achievements reported in this field up t o now as we know. In this paper, author's work on a corpus-based approach to English subordinate clause identification is reported. The approach integrate s rule-base d and statistical methods to get the left and right boundaries of the subordinat e clauses. The Penn Treebank corpus is used as the training standard. The precis ion and recall ratios of subordinate clause identification are tested on both cl osed and open corpora. A result of 92.9% precision and 91.26% recall is obtained for the closed test and the open test result is 80.34% precision and 83.93% rec all. This algorithm has been integrated into our machine translation system. The method can also be applied to processing of any other language.  相似文献   

17.
对复句内部分句间关系的认识和理解,传统汉语语法理论注重从结构层次、语义特征等方面进行分析,忽视了对分句间关系的本质属性和逻辑意义的认识。其实,复句作为一种语言形态,是思维活动的载体,也是思维活动的物质表现形式,同样受到全人类共同的思维规律和逻辑方法的制约;只有在结构、语义层面的认识基础上,进一步从复句内部分句间诸关系中确定本质属性的关系,正确理解关联词语的逻辑意义,才能真正认识和掌握复句内部分句间多元关系中的内在联系。  相似文献   

18.
汉语的歧义分布在语言的不同层面上,从词形变化到句子结构都存在歧义.针对汉英机器翻译不同阶段遇到的歧义问题,采用了隐马尔柯夫模型和贝叶斯分类法来进行排歧.实验表明:基于统计的多步消歧策略在汉英机器翻译系统中具有较高的排歧准确率.  相似文献   

19.
根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。  相似文献   

20.
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F1值提高了3.51%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号