基于BERT-Encoder和数据增强的语法纠错模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于BERT-Encoder和数据增强的语法纠错模型

引用本文：	黄国栋,徐久珺,马传香.基于BERT-Encoder和数据增强的语法纠错模型[J].湖北大学学报(自然科学版),2023(5):719-725.

作者姓名：	黄国栋徐久珺马传香

作者单位：	1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)

基金项目：	国家自然科学基金(61902114)资助；

摘要：	语法纠错是自然语言处理领域的重要任务之一，中文由于语法规则灵活复杂，中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题，将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型，首先，利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛，然后，利用动态掩蔽作为数据增强方法，解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标，F_0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性.
关键词：	中文语法纠错机器翻译 BERT-Encoder 数据增强