面向《方志物产》的自动断句深度学习模型构建研究北大核心CSCDCSSCI |
| |
引用本文: | 王东波,陆昊翔,彭运海,包平,徐晨飞.面向《方志物产》的自动断句深度学习模型构建研究北大核心CSCDCSSCI[J].中国科技史杂志,2022(2):192-203. |
| |
作者姓名: | 王东波 陆昊翔 彭运海 包平 徐晨飞 |
| |
作者单位: | 1.南京农业大学信息管理学院210095;2.菏泽广电传媒集团文化投资部274003;3.南京农业大学数字人文研究中心210095;4.南通大学经济与管理学院226019; |
| |
基金项目: | 国家社科基金重大项目“方志物产知识库构建及深度利用研究”(项目编号:18ZDA327)。 |
| |
摘 要: | 古汉语文本信息处理和语义理解一直是自然语言处理领域的重难点之一,而断句又是语义理解中的基础任务。传统的机器学习方法解决古汉语断句问题需要基于大量的专业标注语料,过程繁琐,效果不佳。本文基于已有的BERT模型,在《四库全书》中文繁体版全文数据集的基础上构建了SikuBERT预训练模型,并将该模型迁移到《方志物产》数据中,完成了在不同数据集上的古汉语自动断句实验,实验最优F值为77.23%,比基础的BERT模型断句效果高出10.3个百分点。实验结果表明,SikuBERT模型具有较好的古汉语断句效果,且在有一定关联性数据集合中的迁移性较好。
|
关 键 词: | 《方志物产》 自动断句 数字人文 SikuBERT模型 |
本文献已被 维普 等数据库收录! |
|