针对命名实体识别的数据增强技术 |
| |
作者单位: | 国网青海省电力公司信息通信公司,西宁810008;上海计算机软件技术开发中心,上海201112;华东师范大学数据科学与工程学院,上海200062 |
| |
基金项目: | 国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;中央高校基本科研业务费专项;上海市核心数学与实践重点实验室资助项目 |
| |
摘 要: | 近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.
|
关 键 词: | 命名实体识别 数据增强 EDA 远程监督 Bootstrap |
本文献已被 CNKI 万方数据 等数据库收录! |
|