基于字词混合和GRU的科技文本知识抽取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于字词混合和GRU的科技文本知识抽取方法

作者姓名：	欧阳苏宇邵蓥侠杜军平李昂

作者单位：	北京邮电大学计算机学院, 智能通信软件与多媒体北京重点实验室, 北京 100082

基金项目：	国家重点研发计划项目（2018YFB1402600）和国家自然科学基金项目（61772083,61877006,61802028,62002027）资助。

摘要：	知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。
关键词：	知识抽取向量映射 GRU 三元组关系联合抽取方法
收稿时间：	2022-04-16

	点击此处可从《广西科学》浏览原始摘要信息
	点击此处可从《广西科学》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏