首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向规范性文件的基于BERT的文本纠错模型
引用本文:汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报(自然科学版),2022(2):257-263.
作者姓名:汪苏琪  王明文  曾雪强
作者单位:江西师范大学计算机信息工程学院
基金项目:国家自然科学基金(61866017;61866018;61876074;61966019);;江西省自然科学基金(20192BAB207027);
摘    要:针对行政规范性文件的文本纠错任务,提出了基于BERT(Bidirectional Encoder Representations from Transformers)的文本纠错模型,模型针对冗余、缺失、错序、错字四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混淆集匹配的方法预测文本缺失内容。实验结果表明:新提出的基于BERT的文本纠错模型在行政规范性文件的文本纠错任务中的F1值为71.89%,比经典的中文文本纠错工具Pycorrector提升了9.48%。

关 键 词:中文文本纠错  行政规范性文件  BERT  BiLSTM  条件随机场
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号