首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
传统的机器翻译评价方法往往需要参考译文,利用机器双语互译评估(BLEU)值等方法比较翻译结果与参考译文之间的相似性.但是,在现实生活中却很难为每一句待翻译的句子找到参考答案,因此,不使用参考译文的译文质量估计(quality estimation,QE)方法有着更加广泛的应用场景.在该文中,基于多语言的预训练语言模型,利用联合编码的策略完成句子级的QE任务,在WMT 2018的QE任务德语→英语语言方向上的评测数据集上取得了最佳的实验结果.同时,对比了微调过程中不同网络结构对于该任务的影响,并探究了平行语料联合编码二次预训练在句子级跨语言任务上的效果.  相似文献   

2.
针对译文后编辑中的过度修正问题, 提出利用神经网络自动后编辑方法, 训练专门用于提供少量复合编辑修正和单一编辑类型修正的神经网络后编辑模型。在此基础上, 通过建立一个基于翻译质量估计的译文筛选算法, 将提出的模型与常规的神经网络自动后编辑模型进行联合。在WMT16自动后编辑任务测试集上的实验结果表明, 与基准系统相比, 所提方法显著提高了机器译文的翻译质量, 实验分析也表明该方法能有效地处理过度修正造成的译文质量下降问题。  相似文献   

3.
使用源语言复述知识改善统计机器翻译性能   总被引:2,自引:0,他引:2  
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。  相似文献   

4.
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹...  相似文献   

5.
机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务,在机器翻译领域中起到了重要的作用.相较于机器翻译,质量评估的数据资源非常稀缺,将跨语言预训练模型应用到该任务中,不但能受益于从大规模语料中学习到的跨语言知识,解决数据量不足的问题,而且极大地节约了计算资源.但与建立跨语言预训练模型采用的正常数据不同,译文质量评估面对的是正常的源端文本和错误程度不同的目标端文本,即它需要应对更大的两端语义差异.因此,本文为基于跨语言预训练模型的译文质量评估系统引入了特殊的语义关联处理层,通过相似度增强的拼接机制来增强原文与译文的语义关联性,从而提高质量评估的准确性.该方法在WMT19质量评估任务数据集上的实验结果验证了上述方法的有效性.  相似文献   

6.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

7.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

8.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

9.
针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题,提出仅需要单语语料训练的无监督的句法可控复述生成模型,用以生成对抗样本.采用变分自编码方式学习模型,首先将句子和句法树分别映射为语义变量和句法变量,然后基于语义变量和句法变量重构原始句子.在重构过程中,模型可以在不使用任何平行语料...  相似文献   

10.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

11.
语言模型是自然语言处理领域最重要的任务之一,并以迁移学习的方式影响着机器翻译、机器阅读理解、自动文本摘要等诸多下游任务。依托多头自注意力构建的大规模预训练语言模型在特征提取和文本表征能力上相较之前的神经网络模型取得了较大提升,却也极大地增加了模型训练的时空复杂度。为此,从模糊群决策的角度出发,将毕达哥拉斯模糊非偏好函数用作多头注意力跨度范围的先验,提出一种自适应的注意力跨度调节机制,较大程度地改善了模型捕捉长距离文本依赖的能力,并使模型的整体计算复杂度相较原始Transformer结构维持在较低水平。公开语言模型数据集上的实验表明:所提方法在困惑度指标上取得了较好的性能,超越了多种以往的方法。  相似文献   

12.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

13.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

14.
实现能够使先进飞行器根据获取的图像自动识别不同的地貌景物,是一种具有实际应用前景的技术需求.提出了联合Gabor滤波器组和局部二值模式来对SAR纹理图像进行分类的新方法SARICIT (SAR Image Classification using Inquiry Table).首先对第一套带类标的训练图像集提取两种特征,分别使用的基于非监督和监督模式相融合的混合神经网络分类器进行训练,然后使用第二套带类标的训练图像集制作二维分类信息查询表,记录两种分类器对每一幅图像的判断结果.在实际进行分类阶段,对新图像提取Gabor和LBP两种纹理特征,输入训练好的分类器.根据两种分类器给出的类型响应,结合查询表,使用一种投票的机制来确定待分类的图像的纹理属性.通过对真实SAR图像的实验结果表明,与流行的单独使用一种纹理特征进行分类相比,新方法能够对SAR图像纹理做到更准确的分类,对雷达图像更具有适用性.  相似文献   

15.
朝鲜语中存在大量特殊短语结构,因此在朝汉翻译中,如何准确翻译这些特殊短语显得尤为重要,此举有利于提高机器翻译的精度与效率。本文基于韩国"世宗计划"标注语料库,通过对特殊短语结构进行语言特征分析,构建规则库,以迭代方式提取特殊短语结构及其分布,并以中心词为""的特殊短语为例,进行自动提取实验,取得满意的效果。  相似文献   

16.
在常见的特征提取方法中,Fisher判别分析(Fisher Discriminant Analysis,FDA)只能提取线性特征,基于核的方法具有提取非线性特征的能力,但对核函数类型及其参数十分敏感. 文中研究如何有效提取数据特征,提出了一种基于多层自动编码机(Stacked AutoEncoders,SAE)和Fisher标准的特征提取算法,该算法中所使用的深度学习网络模型在训练过程中结合无监督特征提取SAE以及有监督的特征提取FDA. 通过与多层自动编码机、极限学习机(Extreme Learning Machine,ELM)等模型提取的特征进行对比,在数据集Pendigits、mnist、ORL和AR上利用支持向量机对数据特征进行分类,结果表明基于SAE的Fisher变换(FDA-SAE)在分类结果准确率以及分类时间上都有较好的效果. 特别是在小数据集AR上,当样本特征较少的情况下效果非常明显.  相似文献   

17.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器...  相似文献   

18.
白色是各民族语言中的基本颜色之一。由于文化价值观、信仰、历史传统和风俗习惯的不同,英汉民族对白色的文化内涵的理解存在差异性。直译、意译和释意是汉英颜色词“白”与“white”的主要翻译方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号