首页 | 本学科首页   官方微博 | 高级检索  
     

基于隐Markov模型的汉语词类自动标注的实验研究
引用本文:孙茂松,卢红娜,邹嘉彦. 基于隐Markov模型的汉语词类自动标注的实验研究[J]. 清华大学学报(自然科学版), 2000, 40(9): 57-60
作者姓名:孙茂松  卢红娜  邹嘉彦
作者单位:1. 清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084
2. 香港城市大学,语言资讯科学研究中心,香港
基金项目:国家自然科学基金项目! (6 970 5 0 0 5 )
摘    要:汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。

关 键 词:计算语言学  中文信息处理  汉语词类自动标注  隐Markov模型
修稿时间:1999-09-20

Experimental study of hidden Markov model based part-of-speech tagging for Chinese texts
SUNMaosong,LUHongna,TSOUBenjaminK. Experimental study of hidden Markov model based part-of-speech tagging for Chinese texts[J]. Journal of Tsinghua University(Science and Technology), 2000, 40(9): 57-60
Authors:SUNMaosong  LUHongna  TSOUBenjaminK
Abstract:
Keywords:computational linguistics  Chinese information processing  part of speech tagging of Chinese texts  hidden Markov model
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号