首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于规则、串频统计和上下文关系的现代汉语分词系统的实现
引用本文:潘大志,成琥,黄青松.基于规则、串频统计和上下文关系的现代汉语分词系统的实现[J].内蒙古师范大学学报(自然科学版),2008,37(1):71-74.
作者姓名:潘大志  成琥  黄青松
作者单位:[1]西华师范大学数学与信息学院,四川南充637000 [2]昆明理工大学信息与自动化学院,云南昆明650051
基金项目:四川省教育厅资助项目 , 云南省重点实验室基金
摘    要:介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.

关 键 词:中文分词  未登录词  现代汉语自动分词系统
文章编号:1001-8735(2008)01-0070-04
收稿时间:2007-03-18
修稿时间:2007年3月18日

Implementation of a Modern Chinese Character Segmentation System Base On Rule,String Frequency Statistics and Context Analysis
PAN Da-zhi,CHENG Hu,HUANG Qing-song.Implementation of a Modern Chinese Character Segmentation System Base On Rule,String Frequency Statistics and Context Analysis[J].Journal of Inner Mongolia Normal University(Natural Science Edition),2008,37(1):71-74.
Authors:PAN Da-zhi  CHENG Hu  HUANG Qing-song
Abstract:A modern Chinese character segmentation system based on rule, statistics and context analysis is described. The system scans the article 3 times. At the first time,it reads the article into memory and then divides it into phases and makes it into intercrossing link by using rules. At the second time,it counts the times that the strings appear. At the last time,with the help of large amount of statistical data and the grammar of the Chinese,it segments Chinese character. It is shown that the system has good performance on the unregistered words.
Keywords:Chinese segmentation  unknown word  modern Chinese character segmentation system
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号