首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于特征比较和最大熵模型的统计机器翻译错误检测
引用本文:杜金华,王莎.基于特征比较和最大熵模型的统计机器翻译错误检测[J].北京大学学报(自然科学版),2013,49(1):81-87.
作者姓名:杜金华  王莎
作者单位:西安理工大学自动化与信息工程学院, 西安 710048;
基金项目:国家自然科学基金(61100085);陕西省教育厅专项科研计划项目(11JK1029);西安理工大学青年科技研究计划项目(105211017)资助
摘    要:首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征, 即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率, 分析其对错误检测性能的影响; 然后, 将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合, 利用最大熵分类器预测翻译错误, 并在汉英NIST数据集上进行实验验证和比较。实验结果表明, 不同的单词后验概率对分类错误率的影响是显著的, 并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率, 提高译文错误预测性能。

关 键 词:错误检测  词后验概率  语言学特征  最大熵分类器  
收稿时间:2012-05-29

Error Detection for Statistical Machine Translation Based on Feature Comparison and Maximum Entropy Model Classifier
DU Jinhua,WANG Sha.Error Detection for Statistical Machine Translation Based on Feature Comparison and Maximum Entropy Model Classifier[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1):81-87.
Authors:DU Jinhua  WANG Sha
Institution:Faculty of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048;
Abstract:The authors firstly introduce three typical word posterior probabilities (WPP) for error detection and classification, which are fixed position WPP, sliding window WPP, and alignment-based WPP, and analyzes their impact on the detection performance. Then each WPP feature is combined with three linguistic features (Word, POS and LG Parsing knowledge) over the maximum entropy classifier to predict the translation errors. Experimental results on Chinese-to-English NIST datasets show that the influences of different WPP features on the classification error rate (CER) are significant, and the combination of WPP with linguistic features can significantly reduce the CER and improve the prediction capability of the classifier.
Keywords:error detection  word posterior probability  linguistic features  maximum entropy classifier  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号