基于多特征融合的新疆旅游领域关系抽取研究 |
| |
引用本文: | 骆铭,古丽拉·阿东别克,马雅静,陈赟.基于多特征融合的新疆旅游领域关系抽取研究[J].东北师大学报(自然科学版),2023(1):88-96. |
| |
作者姓名: | 骆铭 古丽拉·阿东别克 马雅静 陈赟 |
| |
作者单位: | 1. 新疆多语种信息技术实验室新疆大学信息科学与工程学院;2. 国家语言资源监测与研究少数民族语言中心哈萨克和柯尔克孜语文基地 |
| |
基金项目: | 国家自然科学基金资助项目(62062062); |
| |
摘 要: | 通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.
|
关 键 词: | 新疆旅游领域 关系抽取 Bi-LSTM CNN Attentive-pooling |
|
|