首页 | 本学科首页   官方微博 | 高级检索  
     检索      

机器翻译自动评价中领域知识复述抽取研究
引用本文:张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报(自然科学版),2017,53(2).
作者姓名:张丽林  李茂西  肖文艳  万剑怡  王明文
作者单位:江西师范大学计算机信息工程学院,南昌,330022;江西师范大学计算机信息工程学院,南昌,330022;江西师范大学计算机信息工程学院,南昌,330022;江西师范大学计算机信息工程学院,南昌,330022;江西师范大学计算机信息工程学院,南昌,330022
基金项目:国家自然科学基金,江西省自然科学基金,江西省教育厅科技项目
摘    要:针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特定领域训练语料,然后在训练语料中利用Markov网络模型,抽取特定领域复述表,最后将此复述表应用在机器译文自动评价中,以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明,利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。

关 键 词:复述  机器译文自动评价  语言模型  Markov网络  文档聚类

Improve Automatic Evaluation of Machine Translation Using Specific-Domain Paraphrase
ZHANG Lilin,LI Maoxi,XIAO Wenyan,WAN Jianyi,WANG Mingwen.Improve Automatic Evaluation of Machine Translation Using Specific-Domain Paraphrase[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2017,53(2).
Authors:ZHANG Lilin  LI Maoxi  XIAO Wenyan  WAN Jianyi  WANG Mingwen
Abstract:Since the paraphrase extracted from the general domain tends to cause paraphrase match deviation in the specific-domain automatic evaluation of machine translation,this paper proposes an approach exploited specific-domain paraphrase related to the test set to enhance automatic evaluation of machine translation.First,the K-means algorithm is utilized to cluster general-domain monolingual corpus,and the specific-domain training data via improved M-L approach is obtained.Then,the specific-domain paraphrase table is extracted from the training data by Markov network model.Finally,the extracted paraphrase table is applied to automatic MT evaluation metrics to improve word match.The experimental results on the dataset of WMT' 14 Metrics task and WMT'15 Metrics task show that the METEOR metric and the TER metric using the specific-domain paraphrase table yield better performance than that using the general-domain paraphrase table.
Keywords:paraphrase  automatic evaluation of machine translation  language model  Markov network  document clustering
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号