首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

2.
回顾了统计机器翻译发展的历程,讨论了噪声信道模型、基于短语的统计机器翻译和基于句法的统计机器翻译,主张把理性主义方法和经验主义方法结合起来,以推进机器翻译的进一步发展。  相似文献   

3.
介绍了机器翻译方法和统计翻译模型,利用国际开源软件构建了一个基于短语的蒙汉机器翻译系统.初步试验结果表明,基于短语翻译方法的蒙汉机器翻译系统具有较好的翻译效果.  相似文献   

4.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

5.
为了提高机器翻译模型的泛化能力,基于神经机器翻译系统,将系统融合技术应用于模型训练过程.在神经机器翻译系统的基本结构——编码器-解码器结构的基础上,提出5种融合方法(平均融合、权重融合、拼接融合、门机制融合和注意力机制融合)分别应用于多个编码器-一个解码器的融合、多个编码器-多个解码器的融合和一个编码器-多个解码器的融合.在中英翻译任务上进行实验,相对于基准系统,系统融合方法改进的机器翻译模型的机器双语互译评估(BLEU)值最终提升了0.59~3.01个百分点.实验结果表明,系统融合能有效地提升译文质量.  相似文献   

6.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

7.
针对传统神经网络语言模型方法只关注词语之间关系或者词语内部信息而导致维吾尔语语言模型困惑度(PPL)过高的问题,提出了融入词素信息的维吾尔语神经网络语言模型.该方法在传统神经网络语言模型的基础上添加了词内结构建模层及合并层,利用双向长短时序记忆网络来捕捉词内结构信息,并与word2vec训练好的词向量相结合作为神经网络语言模型的输入;同时还采用重构N元语法(N-gram)语言模型的方式将神经网络模型应用到汉维统计机器翻译中.实验表明该模型的PPL降低了19.93,在汉维统计机器翻译任务中机器双语互译评估(BLEU)值提升了0.28个百分点.  相似文献   

8.
维语语料库是汉维机器翻译系统的核心基础,同时也是对维语中的词语进行统计的一个完整和完善的基础模型。在此我们要介绍管道与过滤器模式在维语语料库的构造和维语词频统计系统中的应用。第一步介绍管道和过滤器概念,其次说明建立维语语料库过程和选择语料库原则,最后陈述维语词频统计结果和进行分析。  相似文献   

9.
机器翻译涉及的技术很多,主要工作有两部分:第一部分给出一种汉英机器翻译中的短语处理方法,包括短语切分和短语查找;第二部分研究了汉英机器翻译中译文生成的一些问题.  相似文献   

10.
针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题, 在基于短语的统计机器翻译系统中, 通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作, 生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上, 与基线系统相比, 该方法在多个测试集上明显提高了翻译系统的翻译质量, 在部分测试集上BLEU 值可提高1%左右。  相似文献   

11.
基于自定义知识库, 提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类, 结合日语时间词的特点, 渐进地扩展重构日语时间表达式知识库, 实现基于知识库获取的规则集的优化更新。同时, 融合条件随机场CRF统计模型, 提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度, 提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示, 日语时间表达式识别的开放测试F1值达到0.8987, 基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。  相似文献   

12.
针对基于短语的统计机器翻译使用有限的语义知识, 导致长距离的动宾短语对翻译质量不高的问题, 提出基于动词选择偏向性的翻译模型, 引入动词对宾语的语义约束信息, 为动词找到合适的宾语翻译。首先使用条件概率方法, 训练动词对宾语的选择偏向性, 然后将选择偏向性作为一个新特征, 集成到基于短语的翻译系统中。在大规模测试数据集上完成汉语到英语的翻译, 实验结果表明, 基于选择偏向性的翻译模型能够很好地捕获长距离的语义依赖关系, 从而提高译文质量。  相似文献   

13.
现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性.  相似文献   

14.
统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别获得0.67和0.56个BLEU值的性能提升。  相似文献   

15.
根据英语名词短语的句法功能,提出了一种新的英语名词短语——功能名词短语,同时与基本名词短语和最长名词短语相比较.利用Google在线翻译系统,对存在结构歧义的句子进行了翻译,发现英汉机器翻译的错误主要是由结构歧义引起的,并应用功能名词短语的定义对结构歧义问题予以解决.实验结果表明,功能名词短语的识别能够有效消解两种结构歧义:一是与动词构成固定搭配的名词引起的歧义;二是"介词+名词"结构是作状语还是作后置定语的歧义.功能名词短语的研究对消除句法结构歧义、提高英汉机器翻译译文质量具有重要意义.  相似文献   

16.
朝鲜语中存在大量特殊短语结构,因此在朝汉翻译中,如何准确翻译这些特殊短语显得尤为重要,此举有利于提高机器翻译的精度与效率。本文基于韩国"世宗计划"标注语料库,通过对特殊短语结构进行语言特征分析,构建规则库,以迭代方式提取特殊短语结构及其分布,并以中心词为""的特殊短语为例,进行自动提取实验,取得满意的效果。  相似文献   

17.
当前基于自注意力机制的神经机器翻译模型取得了长足的进展,但是采用自回归的神经机器翻译在解码过程中无法并行计算,耗费时间过长.为此,提出了一个采用非自回归的神经机器翻译模型,可以实现并行解码,并且只使用一个Transformer的编码器模块进行训练,简化了传统的编码器-解码器结构.同时在训练过程中引入了掩码机制,减小了与自回归的神经机器翻译的翻译效果差距.相比于其他非自回归翻译模型,该模型在WMT 2016罗马尼亚语-英语翻译任务上取得了更好的效果,并且在使用跨语言预训练语言模型初始化后,取得了和自回归神经机器翻译模型相当的结果.  相似文献   

18.
基于语义的中文句子的直接生成方法   总被引:1,自引:0,他引:1  
给出一种基于知识机器翻译系统的中文句子的生成方法.这种方法根据中文的特点,从语义的中间语言表达式直接生成中文短语或句子,因此省却了中间语言到句法结构的变换步骤,简化了生成过程.  相似文献   

19.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

20.
基于深度学习的神经机器翻译已在多个语言对上显著超过传统的统计机器翻译,成为当前的主流机器翻译技术。该文从词粒度层面出发,对国际上具有影响力的6种神经机器翻译方法在维吾尔语-汉语翻译任务上进行了深入分析和比较,这6种方法分别是基于注意力机制(GroundHog),词表扩大(LV-groundhog),源语言和目标语言采用子词(subword-nmt)、字符与词混合(nmt.hybrid)、子词与字符(dl4mt-cdec)以及完全字符(dl4mt-c2c)方法。实验结果表明:源语言采用子词、目标语言采用字符的方法(dl4mtcdec)在维吾尔语-汉语神经机器翻译任务上性能最佳。该文不仅是首次将神经机器翻译方法应用到维吾尔语-汉语机器翻译任务上,也是首次将不同的神经机器翻译方法在同一语料库上进行了对比分析。该研究对维吾尔语-汉语机器翻译任务和神经机器翻译的进一步研究工作都具有重要的参考意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号