汉语-印尼语平行语料自动对齐方法研究 |
| |
作者姓名: | 郑铿涛 林楠铠 付颖雯 王连喜 蒋盛益 |
| |
作者单位: | 广东外语外贸大学 信息科学与技术学院,广东 广州,510420;广州市非通用语种智能处理重点实验室(广东外语外贸大学),广东 广州,510420;广东外语外贸大学 信息科学与技术学院,广东 广州 510420;广州市非通用语种智能处理重点实验室(广东外语外贸大学),广东 广州 510420 |
| |
基金项目: | 国家自然科学基金;国家社会科学基金;广东省教育厅基础研究重大项目;应用研究重大项目;国家级大学生科技创新项目 |
| |
摘 要: | 双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。
|
关 键 词: | 平行语料 语料库构建 可比语料 段落对齐 句对齐 |
本文献已被 CNKI 万方数据 等数据库收录! |
|