首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于最长次长匹配分词的一体化中文词法分析
引用本文:孙晓,黄德根.基于最长次长匹配分词的一体化中文词法分析[J].大连理工大学学报,2010,50(6):1028-1034.
作者姓名:孙晓  黄德根
作者单位:1. 大连理工大学,计算机科学与技术学院,辽宁,大连,116024;大连民族学院,计算机科学与工程学院,辽宁,大连,116600
2. 大连理工大学,计算机科学与技术学院,辽宁,大连,116024
基金项目:中央高校基本科研业务费专项资金资助项目(DUT10RW202)
摘    要:针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.

关 键 词:中文词法分析  一体化模型  最长次长匹配  未登录词  切分有向图  

Chinese integrative lexical analysis based on maximum matching and second-maximum matching segmentation
SUN Xiao,HUANG Degen.Chinese integrative lexical analysis based on maximum matching and second-maximum matching segmentation[J].Journal of Dalian University of Technology,2010,50(6):1028-1034.
Authors:SUN Xiao  HUANG Degen
Institution:SUN Xiao 1,2,HUANG De-gen1(1.School of Computer Science , Technology,Dalian University of Technology,Dalian 116024,China,2.School of Computer Science , Engineering,Dalian Nationalities University,Dalian 116600,China)
Abstract:
Keywords:Chinese lexical analysis  integrative model  maximum matching and second-maximum matching  unknown word  segmentation directed graph  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《大连理工大学学报》浏览原始摘要信息
点击此处可从《大连理工大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号