首页 | 本学科首页   官方微博 | 高级检索  
     检索      

HENU汉语自动分词系统中歧义字段消除算法
引用本文:郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报(自然科学版),2004,34(4):49-52.
作者姓名:郑逢斌  付征叶  乔保军  毋琳
作者单位:河南大学,计算机与信息工程学院,河南,开封,475001;西南交通大学,智能控制开发中心,四川,成都,610031;河南大学,生命科学学院,河南,开封,475001;河南大学,计算机与信息工程学院,河南,开封,475001
基金项目:河南省科技厅科技攻关项目(0424220146)
摘    要:先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置.

关 键 词:自然语言处理  自动分词  歧义字段
文章编号:1003-4978(2004)04-0049-04
修稿时间:2004年1月16日

Ambiguities Technique in HENU Automatic Chinese Segmenting System
ZHENG Feng-bin.Ambiguities Technique in HENU Automatic Chinese Segmenting System[J].Journal of Henan University(Natural Science),2004,34(4):49-52.
Authors:ZHENG Feng-bin
Institution:ZHENG Feng-bin~
Abstract:This papar places emphasis on the study of the discovery of segmentation ambiguities and the removal of ambiguous words and phrases. First, the longest word and the second longest word are formed by means of the major dictionary-based matching strategy; second, segmentation ambiguities are found by the use of leap-test so as to judge whether the segmentation ambiguities are of intersection type or combination type. Then, on the basis of the different kinds of segmentation ambiguities, disambiguation is done. The disambiguation of intersection type segmentation ambiguities is done by using the rule-based strategy and the statistics-based strategy. The combination type of ambiguities are removed by the rule-based strategy so that the exact place for segmentation is found.
Keywords:natural language processing  automatic segmentation  ambiguous phrase
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号