首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中文语料库分词不一致的分类处理研究
引用本文:苗玺,郑家恒.中文语料库分词不一致的分类处理研究[J].山西大学学报(自然科学版),2006,29(1):22-25.
作者姓名:苗玺  郑家恒
作者单位:山西大学,计算机与信息技术学院,山西,太原,030006
基金项目:国家科技攻关项目;中国科学院资助项目;山西省自然科学基金
摘    要:大规模语料库中分词结果不一致现象影响着语料库分词质量.在对150万汉字熟语料进行了统计分析的基础上,我们定义了语料库中分词结果不一致的主要结构类型;采用规则的方法检验校对字串的分词不一致,在对150万汉字语料库的封闭测试中,正确率为86.94%.

关 键 词:分词  一致性  中文信息处理
文章编号:0253-2395(2006)01-0022-04
收稿时间:2005-06-15
修稿时间:2005年6月15日

Classified Study On Inconsistency of Segment for Chinese Corpus
MIAO Xi,ZHENG Jia-heng.Classified Study On Inconsistency of Segment for Chinese Corpus[J].Journal of Shanxi University (Natural Science Edition),2006,29(1):22-25.
Authors:MIAO Xi  ZHENG Jia-heng
Abstract:The inconsistency of segment for Chinese corpus impacts the quality of the corpus.Based on the statistic and analysis of the Chinese corpus for 1.5 million Chinese characters,the main types of structure for the segment inconsistencies was defined,and the inconsistencies were checked by using a regular method.The corpus were close tested,and the correct rate was 86.94 %.
Keywords:segment  consistency  Chinese information processing
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号