面向规范性文件的基于BERT的文本纠错模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

面向规范性文件的基于BERT的文本纠错模型

引用本文：	汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报(自然科学版),2022(2):257-263.

作者姓名：	汪苏琪王明文曾雪强

作者单位：	江西师范大学计算机信息工程学院

基金项目：	国家自然科学基金(61866017;61866018;61876074;61966019)；;江西省自然科学基金(20192BAB207027)；

摘要：	针对行政规范性文件的文本纠错任务,提出了基于BERT(Bidirectional Encoder Representations from Transformers)的文本纠错模型,模型针对冗余、缺失、错序、错字四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混淆集匹配的方法预测文本缺失内容。实验结果表明:新提出的基于BERT的文本纠错模型在行政规范性文件的文本纠错任务中的F1值为71.89%,比经典的中文文本纠错工具Pycorrector提升了9.48%。
关键词：	中文文本纠错行政规范性文件 BERT BiLSTM 条件随机场