摘 要: | 作为信息抽取的核心任务, 命名实体识别能够从文本中识别不同类型命名实体。 得益于深度学习在字词表示、 特征提取方面的应用, 中文命名实体识别任务取得了丰富研究成果。 然而, 中文命名实体识别任务依旧面临词汇信息缺乏的挑战, 主要表现为: 1) 词汇边界信息和上下文语义信息未充分利用; 2) 字和自匹配词汇间语义信息未能有效捕获; 3) 图注意力网络输出信息中不同交互图信息的重要性未被考虑。 该文提出一种面向中文的字词组合序列实体识别方法。 采用字词组合序列嵌入结构, 实现词汇边界信息以及字符与词汇间语义信息的充分捕捉; 采用多图注意力融合架构, 实现不同图神经网络提取特征重要性的区分。 实验表明, 相比已有经典方法, 该方法在Weibo、 Resume、 OntoNotes4.0及MSRA四个数据集上的F1明显提升, 在中文命名实体识别任务上具有可行性。
|