词典信息分层调整的中文命名实体识别方法 |
| |
作者姓名: | 李宝昌 郭卫斌 |
| |
作者单位: | 华东理工大学信息科学与工程学院 |
| |
基金项目: | 国家自然科学基金(61672227,62076094); |
| |
摘 要: | 在中文命名实体识别任务中,字信息融合词汇信息能丰富文本特征,但一个字可能对应多个候选词汇,容易产生词汇冲突,融合无关词汇信息会影响模型的识别效果,对此提出了词典信息分层调整的中文命名实体识别方法。首先将所有潜在词语按照词语长度进行分层,通过高层词语反馈调整低层词语的权重来保留更有用的信息,以此缓解语义偏差问题和降低词汇冲突影响;然后将词汇信息拼接到字信息来增强文本特征表示。在Resume和Weibo数据集上的实验结果表明,本文方法与传统方法相比具有更优的效果。
|
关 键 词: | 词典信息 分层调整 字词融合 特征增强 中文命名实体识别 |
|
|