首页 | 本学科首页   官方微博 | 高级检索  
     

一种字母词语自动标注算法
引用本文:郑泽芝. 一种字母词语自动标注算法[J]. 厦门大学学报(自然科学版), 2007, 46(5): 630-634
作者姓名:郑泽芝
作者单位:厦门大学中国语言文学系,福建,厦门,361005
基金项目:国家语言资源监测与研究中心项目;福建省社会科学基金;厦门大学校科研和教改项目
摘    要:自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则 统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.

关 键 词:字母词语  搭配系数  自动标注
文章编号:0438-0479(2007)05-0630-05
修稿时间:2006-11-10

An Auto-labeling Model of Letter-word Phrases
ZHENG Ze-zhi. An Auto-labeling Model of Letter-word Phrases[J]. Journal of Xiamen University(Natural Science), 2007, 46(5): 630-634
Authors:ZHENG Ze-zhi
Abstract:
Keywords:letter-word phrase  collocation coefficient  auto-label
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号