面向规范性文件的基于BERT的文本纠错模型 |
| |
引用本文: | 汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报(自然科学版),2022(2):257-263. |
| |
作者姓名: | 汪苏琪 王明文 曾雪强 |
| |
作者单位: | 江西师范大学计算机信息工程学院 |
| |
基金项目: | 国家自然科学基金(61866017;61866018;61876074;61966019);;江西省自然科学基金(20192BAB207027); |
| |
摘 要: | 针对行政规范性文件的文本纠错任务,提出了基于BERT(Bidirectional Encoder Representations from Transformers)的文本纠错模型,模型针对冗余、缺失、错序、错字四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混淆集匹配的方法预测文本缺失内容。实验结果表明:新提出的基于BERT的文本纠错模型在行政规范性文件的文本纠错任务中的F1值为71.89%,比经典的中文文本纠错工具Pycorrector提升了9.48%。
|
关 键 词: | 中文文本纠错 行政规范性文件 BERT BiLSTM 条件随机场 |
|
|