首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于字和子串联合标注的汉语分词方法
引用本文:于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报(自然科学版),2011,34(3):357-362.
作者姓名:于江德  谷川  葛文英  樊孝忠
作者单位:1. 安阳师范学院计算机与信息工程学院,河南安阳,455002
2. 北京理工大学计算机科学技术学院,北京,100081
基金项目:高等学校博士学科点专项科研基金(20050007023); 河南省高等学校青年骨干教师项目(2009GGJS-108)
摘    要:近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.

关 键 词:汉语分词  条件随机场  词位标注  子串  特征模板

Combining Character-Based and Substring-Based Tagging for Chinese Word Segmentation
YU Jiang-de,GU Chuan,GE Wen-ying,FAN Xiao-zhong.Combining Character-Based and Substring-Based Tagging for Chinese Word Segmentation[J].Journal of Shanxi University (Natural Science Edition),2011,34(3):357-362.
Authors:YU Jiang-de  GU Chuan  GE Wen-ying  FAN Xiao-zhong
Institution:YU Jiang-de1,GU Chuan1,GE Wen-ying1,FAN Xiao-zhong2(1.School of Computer and Information Engineering,Anyang Normal University,Anyang 455002,China,2.School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China)
Abstract:The performance of Chinese word segmentation has been greatly improved by word-position-based approaches in recent years.This approach treats Chinese word segmentation as a word-position tagging problem.With the help of powerful sequence tagging model,word-position-based method quickly rose as a mainstream technique in this field.Considering plenty of abbreviations,numeric and other non-Chinese strings,our segmentation system adopted a method combining character-based and substring-based tagging.Substring i...
Keywords:Chinese word segmentation  conditional random fields  word-position tagging  substring  feature template  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号