首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
预训练语言模型能够表达句子丰富的句法和语法信息,并且能够对词的多义性建模,在自然语言处理中有着广泛的应用,BERT(bidirectional encoder representations from transformers)预训练语言模型是其中之一。在基于BERT微调的命名实体识别方法中,存在的问题是训练参数过多,训练时间过长。针对这个问题提出了基于BERT-IDCNN-CRF(BERT-iterated dilated convolutional neural network-conditional random field)的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示,再将字向量序列输入IDCNN-CRF模型中进行训练,训练过程中保持BERT参数不变,只训练IDCNN-CRF部分,在保持多义性的同时减少了训练参数。实验表明,该模型在MSRA语料上F1值能够达到94.41%,在中文命名实体任务上优于目前最好的Lattice-LSTM模型,提高了1.23%;与基于BERT微调的方法相比,该方法的F1值略低但是训练时间大幅度缩短。将该模型应用于信息安全、电网电磁环境舆情等领域的敏感实体识别,速度更快,响应更及时。  相似文献   

2.
针对双向长短时记忆网络-条件随机场(bi-directional long short-term memory-conditional random field,BiLSTM-CRF)模型存在准确率低和向量无法表示上下文的问题,提出一种改进的中文命名实体识别模型。利用裁剪的双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到包含上下文信息的语义向量;输入双向门控循环单元(bidirectional gated recurrent unit,BiGRU)网络及多头自注意力层捕获序列的全局和局部特征;通过条件随机场(conditional random field,CRF)层进行序列解码标注,提取出命名实体。在人民日报和微软亚洲研究院(Microsoft research Asia,MSRA)数据集上的实验结果表明,改进模型在识别效果和速度方面都有一定提高;对BERT模型内在机理的分析表明,BERT模型主要依赖从低层和中层学习到的短语及语法信息完成命名实体识别(named entity recognition,NER)任务。  相似文献   

3.
为提高中文命名实体识别任务的识别率,提出了一种多准则融合模型.采用基于字的BERT语言模型作为语言信息特征提取层,将其接入多准则共享连接层和条件随机场(CRF)层,得到融合模型.建立大规模中文混合语料库,优化模型参数,使用单GPU设备完成BERT语言模型的预训练.将融合模型在MSRA-NER和RMRB-98-1实体标注集上进行独立训练和混合训练,得到各语料库独立的单准则中文命名实体识别模型和多准则融合中文命名实体识别模型.结果表明,多准则融合中文命名实体识别模型能够挖掘语料库间的共有信息,提高中文命名实体的识别率,MSRA-NER和RMRB-98-1实体标注集上的F1值分别为94.46%和94.32%,优于其他现有模型.  相似文献   

4.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

5.
自动提取企业年报关键数据是企业评价工作自动化的重要手段.针对企业年报领域关键实体结构复杂、与上下文语义关联强、规模较小的特点,提出基于转换器的双向编码器表示-双向门控循环单元-注意力机制-条件随机场(BERT-BiGRU-Attention-CRF)模型.在BiGRU-CRF模型的基础上,首先引入BERT预训练语言模型...  相似文献   

6.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

7.
针对军事重要目标实体自动获取的问题,提出一种将基于转换器的轻量级双向编码表征(a lite BERT,ALBERT)、双向门控循环单元(Bi-Gated recurrent unit,BiGRU)、条件随机场(conditional random field,CRF)相结合的小样本数据集命名实体识别方法.考虑到军事重要...  相似文献   

8.
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration, ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network, BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network, IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field, CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia, MSRA)数据集上的F1值达到了95.18%,相比基准模型BiLSTM-CRF F<...  相似文献   

9.
近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外延的关系自动构造嵌套命名实体;然后使用分层ERNIE模型在构建好的中文语料库上进行中文嵌套命实体识别的研究,相较于BERT等模型,ERNIE模型则是通过对中文实体语义单元的掩码,使得模型学习完整概念的语义表示.实验结果表明,分层ERNIE模型在ACE2004和ACE2005两个中文嵌套命名实体语料库上F1值分别为84.5%和85.9%,性能优于BERT和RoBERTa模型.  相似文献   

10.
针对手机短信的口语化特点,对手机短信中命名实体识别进行了研究.在对手机短信语料研究与分析的基础上,提出了一种针对手机短信口语化语料进行命名实体识别的方法.实验表明,这种方法对手机短信语料中的命名实体具有较好的识别结果.  相似文献   

11.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

12.
针对中文命名实体识别中融合词典信息准确率提升不足的问题,使用在模型内部融合词典信息的策略,并结合预训练语言模型NEZHA增强文本的嵌入表示,提出一种基于LNBC(LE-NEZHA-BiLSTM-CRF)模型的中文命名实体识别方法.首先通过词典树匹配所有潜在的词,然后采用面向中文理解的神经语境表征模型(NEZHA)进行融合嵌入表示,将训练得到的字词融合向量输入双向长短期记忆(BiLSTM)网络进行特征提取,获取长距离的语义信息,最后通过条件随机场(CRF)层降低错误标签输出的概率.实验结果表明,该方法在MSRA数据集和Resume数据集中的F1值分别为95.71%和96.11%,较其他对比模型均有提高.  相似文献   

13.
针对中文医药类网络文本的不规范性引起的药名实体识别性能下降,提出基于层次结构的多策略方法。首先使用条件随机场模型结合改进的最大匹配算法识别药名实体,然后在此基础上对其中的不规范药名实体利用最小编辑距离方法规范化药名实体并扩充药名词典。实验结果表明,改进的最大匹配算法结合统计模型有效地提升了药名实体识别的性能,同时为药名实体规范化扩展提供了新的思路。  相似文献   

14.
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型.  相似文献   

15.
充分利用人名的外部特征和内部颗粒特征,提出了一种基于条件随机场的中国人名识别方法.通过建立原子模板和复合模板,将局部特征、关联特征、全局特征以及专家知识相融合,基于条件随机场建立了相应的语言模型,极大地提高了人名识别的准确率和召回率.  相似文献   

16.
中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。  相似文献   

17.
18.
基于条件随机场的中医命名实体识别   总被引:1,自引:0,他引:1  
中医医案蕴藏着丰富的知识,如何完成对海量医案的自动标注以便对其进行知识挖掘显得尤为重要.针对明清古医案中症状、病机的自动识别标注问题,采用了基于条件随机场(CRF)的方法,提出数据清洗以及缩减合并词性以减少特征空间规模.最后,通过仿真实验将该方法与最大熵、支持向量机这两种统计方法进行对比.结果表明:该方法在针对明清古医案中症状、病机这类中医命名实体识别具有明显的优势.  相似文献   

19.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著.  相似文献   

20.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号