首页 | 本学科首页   官方微博 | 高级检索  
     

面向专利文献的汉语分词技术研究
引用本文:岳金媛,徐金安,张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报(自然科学版), 2013, 49(1): 159-164
作者姓名:岳金媛  徐金安  张玉洁
作者单位:北京交通大学计算机与信息技术学院, 北京 100044;
基金项目:中央高校基本科研业务费专项资金(2009JBM027,2010JBZ2007);北京市重点学科共建项目(计算机应用技术);中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP2010-4);北京交通大学人才基金(2011RC034)资助
摘    要:
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。

关 键 词:汉语分词  条件随机场  专业术语提取  
收稿时间:2012-06-04

Chinese Word Segmentation for Patent Documents
YUE Jinyuan,XU Jin’an,ZHANG Yujie. Chinese Word Segmentation for Patent Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164
Authors:YUE Jinyuan  XU Jin’an  ZHANG Yujie
Affiliation:School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044;
Abstract:
According to the characteristics of the patent documents, the authors present a statistics approach for Chinese word segmentation based on domain dictionaries. NC-value algorithm and conditional random fields model (CRF) are adopted for the domain terms extraction, to solve the unknown words recognition issue. The experimental results show that the proposed method can improve the efficiency of the word segmentation and the identification of the unknown words. For an open test, the precision of the experimental results is 95.56 %, the recall-rate is 96.18%, and F-measure is 95.87%.
Keywords:Chinese word segmentation  conditional random fields (CRF)  domain terms extraction  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号