首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于CRF的中文组块分析
引用本文:徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报(理学版),2007,45(3):416-420.
作者姓名:徐中一  胡谦  刘磊
作者单位:吉林大学 计算机科学与技术学院, 长春 130012
基金项目:国家自然科学基金 , 高等学校博士学科点专项科研项目 , 吉林省科技发展计划
摘    要:提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.

关 键 词:组块分析  条件随机域  特征函数  
文章编号:1671-5489(2007)03-0416-05
收稿时间:2006-06-29
修稿时间:2006年6月29日

Chinese Text Chunking Based CRF
XU Zhong-yi,HU Qian,LIU Lei.Chinese Text Chunking Based CRF[J].Journal of Jilin University: Sci Ed,2007,45(3):416-420.
Authors:XU Zhong-yi  HU Qian  LIU Lei
Institution:College of Computer Science and Technology, Jilin University, Changchun 130012, China
Abstract:A new method to solve Chinese text chunking was introduced as conditional random fields (CRF) model, by which Chinese text chunking transformed into labeling the words with their chunk tags and establishinga model for tagged corpus according to conditional random fields so as to predict the chunk ta g of each word. An F1 score of 85.5% is achieved by using the evaluation dataset of Chinese treebank of Beijing university, and obviously better than those of hidden Markov model and maximum entropy Markov model. Experimental results show that conditional random fields model is an effective way on Chinese text chunking and the strict Independence hypothesis and the label bias problem are avoided.
Keywords:chunking  conditional random fields  feature function
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《吉林大学学报(理学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(理学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号