一种基于循环神经网络的古文断句方法 |
| |
引用本文: | 王博立,史晓东,苏劲松. 一种基于循环神经网络的古文断句方法[J]. 北京大学学报(自然科学版), 2017, 53(2). DOI: 10.13209/j.0479-8023.2017.032 |
| |
作者姓名: | 王博立 史晓东 苏劲松 |
| |
作者单位: | 厦门大学智能科学与技术系,厦门,361005;厦门大学智能科学与技术系,厦门361005;厦门大学两岸关系和平发展协同创新中心,厦门361005;福建省类脑计算技术及应用重点实验室,厦门361005;厦门大学软件学院,厦门,361005 |
| |
基金项目: | 教育部专项“简繁汉字智能转换系统”、国家科技支撑计划项目,教育部博士点基金,国家自然科学基金,CCF中文信息技术开放课题 |
| |
摘 要: | 提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。
|
关 键 词: | 古汉语 断句 循环神经网络 |
A Sentence Segmentation Method for Ancient Chinese Texts Based on Recurrent Neural Network |
| |
Abstract: | This paper proposes an automatic sentence segmentation method for ancient Chinese texts based on recurrent neural network (RNN).A bi-directional RNN structure with gated recurrent units (GRU) is implemented,and state transition probability and length penalty are employed in decoding to improve the accuracy.Experimental results show that proposed model achieves higher F1 score than traditional methods. |
| |
Keywords: | ancient Chinese sentence segmentation recurrent neural network |
本文献已被 CNKI 万方数据 等数据库收录! |
|