首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
基于安全知识图谱的网络安全威胁情报分析能够细粒度地分析多源威胁情报数据,因此受到广泛关注.传统的命名实体识别方法难以识别网络安全领域中新的或中英文混合的安全实体,且提取的特征不充分,因此难以准确地识别网络安全实体.在深度神经网络模型的基础上,提出一种结合特征模板的CNN-BiLSTM-CRF的网络安全实体识别方法,利用人工特征模板提取局部上下文特征,进一步利用神经网络模型自动提取字符特征和文本全局特征.实验结果表明,在大规模网络安全数据集上,提出的网络安全实体识别方法,相关评价指标优于其他算法,F值达到86%.  相似文献   

2.
提出一种融合实体信息的图卷积神经网络模型(ETGCN),用于短文本分类.首先,使用实体链接工具抽取短文本中的实体;然后,利用图卷积神经网络对文档、实体和单词进行建模,丰富文本的潜在语义特征;将学习到的单词节点表示与BERT词嵌入进行拼接,通过双向长短期记忆网络,进一步挖掘文本上下文语义特征,再与图神经网络模型得到的文本特征进行融合,用于分类.实验结果表明,该模型在数据集AGNews、R52和MR上的分类准确率分别为88.38%、93.87%和82.87%,优于大部分主流的基线方法.  相似文献   

3.
针对传统命名实体识别方法无法有效利用实体边界信息的问题,提出一种联合实体边界检测的命名实体识别方法,即将实体边界检测作为辅助任务,增强模型对实体边界的判断能力,进而提升模型对实体的识别效果。首先,利用Bert预训练语言模型对原始文本进行特征嵌入获取词向量,并引入自注意力机制增强词对上下文信息的利用;其次,在命名实体识别任务的基础上,添加实体边界检测辅助任务,增强模型对实体边界的识别能力;再次,对比联合实体边界检测的命名实体识别方法与基线方法的有效性,并对测试结果进行消融实验;最后,进行样例分析,分析损失权重β对实体边界检测的影响。实验结果表明,在英文社交媒体数据集Twitter-2015上,联合实体边界检测的命名实体识别方法相较于基线模型取得了更高的精准率、召回率和F1值,其中F1值达到了73.57%;并且,边界检测辅助任务提升了基线方法的检测效果。所提方法能有效利用实体边界信息,从而获得更好的实体识别效果,促进了人机交互系统的发展,对自然语言处理下游任务有重要意义。  相似文献   

4.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

5.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

6.
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07.  相似文献   

7.
针对目前中文命名实体识别无法表征一词多义以及未能深入捕捉文本潜在语义特征的问题,提出一种融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别方法。首先,通过BERT模型预训练,获得含有丰富语义的词向量;其次,传送到BiLSTM中,获取文本的上下文特征;然后,将上层的输出结果再传向注意力层,对文本中不同文字赋予不同的权重,增强当前信息和上下文信息之间潜在的语义相关性,捕捉文本的潜在语义特征;最后,将结果输入到条件随机场进行解码标注。实验结果表明,在1998年人民日报数据集上取得了较好的识别效果。  相似文献   

8.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.  相似文献   

9.
针对由源域训练的行人再识别模型通常在目标域的泛化能力不强的问题,提出基于图卷积神经网络的跨域行人再识别方法,将源域数据学习到的整合邻居样本信息的能力迁移至目标域数据.首先,为经过特征提取后的源域数据建立亲属子图,并将源域数据特征和亲属子图作为所设计的图卷积神经网络模块的输入,以基于源域的监督信息训练图卷积神经网络模块;然后,对经过特征提取后的目标域数据建立亲属子图,将训练过的图卷积神经网络模块应用于目标域数据,为目标域数据赋伪标签;最后,联合源域数据和目标域数据训练得到一个泛化能力强的行人再识别模型.分别在两个大规模公开数据集Market-1501和DukeMTMC-reID上对所提出方法进行实验验证,结果表明所提出的方法与所选择的基准模型相比使得Market-1501的rank-1准确率和平均准确率均值(mAP)分别提高了7.4%和9.2%,而DukeMTMC-reID的rank-1准确率和m AP分别提高了14.2%和14.9%.  相似文献   

10.
命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%.  相似文献   

11.
采用图神经网络模型为整个语料库构建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图特征,增强图神经网络模型的分类性能。在MR,Ohsumed,R8,R52数据集上的实验结果表明,相较于经典的文本分类模型,该模型能够提取更丰富的文本特征,在准确率上平均提高了2.17%,5.38%,0.61%,2.48%。  相似文献   

12.
为了从来源不同的威胁情报中提取关键信息,方便政府监管部门开展安全风险评估,针对威胁情报文本中英文混杂严重以及专业词汇生僻导致识别困难的问题,在BiGRU-CRF模型基础上,提出了一种融合边界特征以及迭代膨胀卷积神经网络(IDCNN)的威胁情报命名实体识别方法.该方法根据人工构造的规则词典将边界清晰的实体例如英文单词进行转化以减少模型在处理较长文本时容易造成的信息损失,通过IDCNN和双向门控循环单元(BiGRU)进一步提取了文本的局部和全局特征.通过在威胁情报语料库上进行实验,结果表明所提的方法模型在相关评价指标上均优于其他模型,F值达到87.4%.  相似文献   

13.
医疗文本具有实体密度高、句式冗长等特点,简单的神经网络方法不能很好地捕获其语义特征,因此提出一种基于预训练模型的混合神经网络方法。首先使用预训练模型获取动态词向量,并提取实体标记特征;然后通过双向长短期记忆网络获取医疗文本的上下文特征,同时使用卷积神经网络获取文本的局部特征;再使用注意力机制对序列特征进行加权,获取文本全局语义特征;最后将实体标记特征与全局语义特征融合,并通过分类器得到抽取结果。在医疗领域数据集上的实体关系抽取实验结果表明,新提出的混合神经网络模型的性能比主流模型均有提升,说明这种多特征融合的方式可以提升实体关系抽取的效果。  相似文献   

14.
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers,Bert)和注意力机制的命名实体识别模型.模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field,CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体.实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%.Bert-BiL-STM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率.  相似文献   

15.
针对危险化学品实体识别及关系识别的问题,本文基于双向长短期记忆网络连接条件随机场(Bidirectional Long Short-Term Memory with Conditional Random Field, BiLSTM-CRF)模型,通过引入双向编码器表示(Bidirectional Encoder Representation from Transformers, BERT)模型结合多头自注意力机制,提出了一种预训练命名实体模型BERT-BiLSTM-self-Attention-CRF,通过对危险化学品的文本进行字符级别编码,得到基于上下文信息的字向量,增强了模型挖掘文本全局和局部特征的能力。实验结果表明,在自行构建的数据集上,本文模型优于其他传统模型,其F1值为94.57%。  相似文献   

16.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

17.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

18.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

19.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

20.
Identifying negation cues and their scope in a text is an important subtask of information extrac-tion that can benefit other natural language processing tasks, including but not limited to medical da-ta mining, relation extraction, question answering and sentiment analysis.The tasks of negation cue and negation scope detection can be treated as sequence labelling problems.In this paper, a system is presented having two components: negation cue detection and negation scope detection.In the first phase, a conditional random field ( CRF) model is trained to detect the negation cues using a lexicon of negation words and some lexical and contextual features.Then, another CRF model is trained to detect the scope of each negation cue identified in the first phase, using basic lexical and contextual features.These two models are trained and tested using the dataset distributed within the*Sem Shared Task 2012 on resolving the scope and focus of negation.Experimental results show that the system outperformed all the systems submitted to this shared task.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号