首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field, BiLSTM-CRF)命名实体识别模型,性能提升约5%。  相似文献   

2.
针对危险化学品实体识别及关系识别的问题,本文基于双向长短期记忆网络连接条件随机场(Bidirectional Long Short-Term Memory with Conditional Random Field, BiLSTM-CRF)模型,通过引入双向编码器表示(Bidirectional Encoder Representation from Transformers, BERT)模型结合多头自注意力机制,提出了一种预训练命名实体模型BERT-BiLSTM-self-Attention-CRF,通过对危险化学品的文本进行字符级别编码,得到基于上下文信息的字向量,增强了模型挖掘文本全局和局部特征的能力。实验结果表明,在自行构建的数据集上,本文模型优于其他传统模型,其F1值为94.57%。  相似文献   

3.
命名实体识别(named entity recognition, NER)可整合复合材料检测领域相关数据精准提取关键实体信息,促进产业信息化,为行业发展提供技术支撑。针对复合材料检测领域专业名词过多及边界混淆等问题,提出了一种基于对抗训练(adversarial training)和BERT(bidirectional encoder representations from transformers)嵌入相结合的领域命名实体识别模型(BERT-AdBC)。首先,复合材料检测领域数据规模较小,BERT嵌入增强了领域迁移能力,通过融合字向量获取充分的语义表示;其次,领域语句繁杂冗长,引入自注意力机制结合双向长短期记忆网络(Bi-LSTM)模型增强了上下文之间语义关系的获取;最后,对抗训练利用分词任务与实体识别任务的共享信息解决了边界混淆问题。实验结果表明,本文所提出的BERT-AdBC模型对复合材料检测领域实体识别的效果要优于传统模型,综合评价指标F1最高提升6.48%。  相似文献   

4.
近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外延的关系自动构造嵌套命名实体;然后使用分层ERNIE模型在构建好的中文语料库上进行中文嵌套命实体识别的研究,相较于BERT等模型,ERNIE模型则是通过对中文实体语义单元的掩码,使得模型学习完整概念的语义表示.实验结果表明,分层ERNIE模型在ACE2004和ACE2005两个中文嵌套命名实体语料库上F1值分别为84.5%和85.9%,性能优于BERT和RoBERTa模型.  相似文献   

5.
针对数控机床(computer numerical control,CNC)故障领域命名实体识别方法中存在实体规范不足及有效实体识别模型缺乏等问题,制定了领域内实体标注策略,提出了一种基于双向转换编码器(bidirectional encoder representations from transformers,BERT)的数控机床故障领域命名实体识别方法。采用BERT编码层预训练,将生成向量输入到双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)交互层以提取上下文特征,最终通过条件随机域(conditional random field,CRF)推理层输出预测标签。实验结果表明,BERT-BiLSTM-CRF模型在数控机床故障领域更具优势,与现有模型相比,F1值提升大于1.85%。  相似文献   

6.
命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一,一直以来都是国内外研究的热点.随着金融互联网的快速发展,迄今为止,金融领域中文NER不断进步,并得以应用到其他金融业务中.为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势,进行了一项相关方法的研究和总结.首先,介绍了NER的相关概念和金融领域中文NER的特点;然后,按照金融领域中文NER的发展历程,将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法,并详细介绍了每类方法的特点和典型模型;接下来,简要概括了金融领域中文NER的公开数据集和工具、评估方法及其应用;最后,向读者阐述了目前面临的挑战和未来的发展趋势.  相似文献   

7.
为了从来源不同的威胁情报中提取关键信息,方便政府监管部门开展安全风险评估,针对威胁情报文本中英文混杂严重以及专业词汇生僻导致识别困难的问题,在BiGRU-CRF模型基础上,提出了一种融合边界特征以及迭代膨胀卷积神经网络(IDCNN)的威胁情报命名实体识别方法.该方法根据人工构造的规则词典将边界清晰的实体例如英文单词进行转化以减少模型在处理较长文本时容易造成的信息损失,通过IDCNN和双向门控循环单元(BiGRU)进一步提取了文本的局部和全局特征.通过在威胁情报语料库上进行实验,结果表明所提的方法模型在相关评价指标上均优于其他模型,F值达到87.4%.  相似文献   

8.
细粒度实体分类是一项多类别多标签任务,能协助广泛的下游任务(关系抽取、共指消解、问答 系统等)提高工作效率、优化准确率,已成为自然语言处理领域的一个研究热点。针对传统的细粒度实体分类方法人工标注大型语料库难度大,准确率偏低等问题,研究人员提出了基于神经网络的细粒度实体分类方 法,不仅能够解决人工标注费时费力的问题,而且可以提高分类的准确率。然而现有的神经网络模型大多需 要远程监督的参与,在此过程中会引入噪声标签等问题,通过噪声标签处理方法能够有效抑制噪声标签对分类结果的影响,进一步提升分类性能。 在相同评测数据集下,根据相同评价指标对比各类细粒度实体分类方 法的性能,可以发现在细粒度实体分类领域中采用 BiLSTM 处理实体指称上下文,并通过注意力机制提取更为重要的特征,有助于提高细粒度实体分类方法的准确率、Macro F1值和 Micro F1值。  相似文献   

9.
中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。  相似文献   

10.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

11.
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型.  相似文献   

12.
命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%.  相似文献   

13.
针对在线医疗文本, 设计考虑医疗领域特性的识别特征, 并在自建数据集上进行实体识别实验。针对常见的5 类疾病: 胃炎、肺癌、哮喘、高血压和糖尿病, 采用近年来较先进的机器学习模型条件随机场, 进行训练和测试, 抽取目标实体包括疾病、症状、药品、治疗方法和检查5类。通过采用逐一添加特征的实验方式, 验证所提特征的有效性, 取得总体上81.26%的准确率和60.18%的召回率, 随后对识别特征给出进一步分析。  相似文献   

14.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

15.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

16.
介绍实体链接的概念和步骤以及基于深度学习的命名实体链接相关问题和研究现状,分析实体链接研究中存在的问题及相应的解决模型,并介绍相关数据集和评测方法.总结国际评测会议中实体链接的现状,展望未来的研究方向.  相似文献   

17.
为构建东盟十国知识图谱,需要对相关文本进行命名实体识别工作。设计一种基于双向GRU-CRF的神经网络模型对中国驻东盟十国大使馆中文新闻数据进行命名实体识别。以预训练的领域词向量为输入,利用双向GRU网络从向量化的文本中提取语义特征,再通过CRF层预测并输出最优标签序列。为了进一步改善结果,在双向GRU和CRF层之间添加两层隐藏层。在数据预处理方面,提出一种数据集划分算法对文本进行更加科学合理的划分。在东盟十国数据集上将该模型与几种混合模型进行对比,结果显示所提模型在人名、地名、组织机构名识别任务中拥有更好的识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号