融入自注意力机制的社交媒体命名实体识别 |
| |
引用本文: | 李明扬,孔芳.融入自注意力机制的社交媒体命名实体识别[J].清华大学学报(自然科学版),2019(6). |
| |
作者姓名: | 李明扬 孔芳 |
| |
作者单位: | 苏州大学计算机科学与技术学院 |
| |
摘 要: | 相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。
|
本文献已被 CNKI 等数据库收录! |
|