国防科技领域两阶段开放信息抽取方法 |
| |
引用本文: | 胡明昊,王芳,徐先涛,罗威,刘晓鹏,罗准辰,谭玉珊.国防科技领域两阶段开放信息抽取方法[J].清华大学学报(自然科学版),2023(9):1309-1316. |
| |
作者姓名: | 胡明昊 王芳 徐先涛 罗威 刘晓鹏 罗准辰 谭玉珊 |
| |
作者单位: | 军事科学院军事科学信息研究中心 |
| |
基金项目: | 国家自然科学基金青年项目(62006243); |
| |
摘 要: | 互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。
|
关 键 词: | 国防科技 开放信息抽取 主谓宾-宾补结构 知识图谱 预训练语言模型 |
|
|