面向中英平行专利的双语术语自动抽取 |
| |
引用本文: | 孙茂松,李莉,刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报(自然科学版),2014(10):1339-1343. |
| |
作者姓名: | 孙茂松 李莉 刘知远 |
| |
作者单位: | 清华大学计算机科学与技术系,智能技术与系统国家重点实验室,清华信息科学与技术国家实验室 |
| |
基金项目: | 国家科技支撑计划重点项目(2009BAH41B04);教育部哲学社会科学研究重大课题攻关项目(10JZD0043) |
| |
摘 要: | 双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。
|
关 键 词: | 短语对齐 条件随机场 组块分析 双语术语 |
本文献已被 CNKI 等数据库收录! |
|