首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于条件随机场的古汉语自动断句与标点方法
引用本文:张开旭,夏云庆,宇航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报(自然科学版),2009(10).
作者姓名:张开旭  夏云庆  宇航
作者单位:清华大学计算机科学与技术系;清华大学清华信息科学与技术国家实验室;
基金项目:国家自然科学基金资助项目(60703051,60873174);;国家“八六三”高技术项目(2007AA01Z148)
摘    要:标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。

关 键 词:计算机信息处理  古汉语标点  条件随机场(CRF)  

CRF-based approach to sentence segmentation and punctuation for ancient Chinese prose
ZHANG Kaixu,XIA Yunqing,YU Hang.CRF-based approach to sentence segmentation and punctuation for ancient Chinese prose[J].Journal of Tsinghua University(Science and Technology),2009(10).
Authors:ZHANG Kaixu  XIA Yunqing  YU Hang
Institution:1.Department of Computer Science and Technology;Tsinghua University;Beijing 100084;China;2.Tsinghua National Laboratory for Information Science and Technology;China
Abstract:Though punctuation is important in modern Chinese,punctuation marks were not used in ancient Chinese.Thus,ancient Chinese literature is very hard for modern Chinese to read.This article presents a conditional random field(CRF) based approach to automate ancient Chinese prose punctuation using the mutual information and the t-test difference as features.Tests on Lunyu and Shiji show that the approach outperforms the state-of-the-art method by 0.124 on the F1 score for sentence segmentation.Thus,this approach...
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号