首页 | 本学科首页   官方微博 | 高级检索  
     检索      

国防科技领域两阶段开放信息抽取方法
引用本文:胡明昊,王芳,徐先涛,罗威,刘晓鹏,罗准辰,谭玉珊.国防科技领域两阶段开放信息抽取方法[J].清华大学学报(自然科学版),2023(9):1309-1316.
作者姓名:胡明昊  王芳  徐先涛  罗威  刘晓鹏  罗准辰  谭玉珊
作者单位:军事科学院军事科学信息研究中心
基金项目:国家自然科学基金青年项目(62006243);
摘    要:互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。

关 键 词:国防科技  开放信息抽取  主谓宾-宾补结构  知识图谱  预训练语言模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号