首页 | 本学科首页   官方微博 | 高级检索  
     

基于全局搜索和局部分类的特定领域双语网站识别方法
作者姓名:刘昊  洪宇  刘乐  王星  姚建民  朱巧明
作者单位:苏州大学计算机科学与技术学院
基金项目:国家自然科学基金(No.61272259;61272260;61373097)
摘    要:根据领域性较强的网站往往蕴含大量平行或可比较双语样本这一特点,针对特定领域双语网站的自动识别问题,提出了一种基于全局搜索和局部分类的方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18 944个,随机抽取其中3 000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提出的自动识别特定领域双语网站方法的有效性。

关 键 词:统计机器翻译  特定领域机器翻译  双语网站  翻译等价对
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号