基于BERT-Encoder和数据增强的语法纠错模型 |
| |
引用本文: | 黄国栋,徐久珺,马传香.基于BERT-Encoder和数据增强的语法纠错模型[J].湖北大学学报(自然科学版),2023(5):719-725. |
| |
作者姓名: | 黄国栋 徐久珺 马传香 |
| |
作者单位: | 1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心) |
| |
基金项目: | 国家自然科学基金(61902114)资助; |
| |
摘 要: | 语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标,F0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性.
|
关 键 词: | 中文语法纠错 机器翻译 BERT-Encoder 数据增强 |
|